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Le espressioni regolari (o regexp, regex, RE, tutte abbreviazioni di "regular-expression") sono una sintassi 
attraverso la quale si possono rappresentare insiemi di stringhe. Sono spesso utilizzate da editor di testo per la 
ricerca e la sostituzione di porzioni del testo, ma trovano anche ampi utilizzi nella programmazione, web e 
non. PHP, Perl, Python, Java, Javascript, C e molti altri linguaggi, più o meno noti, fanno largo utilizzo delle 
regexp per effettuare controlli e operazioni sulle stringhe che processano. 
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Introduzione 

Esistono alcuni concetti che sono trasversali a tutto il mondo dell'informatica; se ne sente parlare spesso, 
ma altrettanto spesso non si hanno le idee troppo chiare su di essi. Le espressioni regolari (in inglese regular 
expressions o, più concisamente, regex o anche regexp), fanno sicuramente parte di questo insieme. 

Se siete già abili utilizzatori delle espressioni regolari, questo libro non fa per voi, perché probabilmente non 
ha nulla da insegnarvi. Se invece fate parte di quella schiera di persone che si domandano cosa mai siano e a 
cosa servano queste misteriose e sfuggenti espressioni regolari, allora queste pagine possono insegnarvi 
qualcosa. 

Nel lontano 1950, il matematico Stephen Kleene definì i regular sets (insiemi regolari), il primo concetto da 
cui ebbero origine le espressioni regolari: avrete senza dubbio intuito che devono essere estremamente potenti 
se, più che cinquantenni, vengono ancora utilizzate! 

Abbiamo scritto che l'anno di nascita delle regular expression è il 1950 ma in effetti questa affermazione non 
è proprio esatta. La prima vera applicazione a implementarle è stata l'editor QED, esteso da Ken Thompson nel 
1966 per comprendere le regex. Se questo nome non vi “suona” nuovo, forse è perché Ken fu uno degli autori 
di Multics, l'antenato dei sistemi operativi simil-Unix, e del suo famoso editor ed: inutile dire che, grazie a lui, 
l'uso delle espressioni regolari è stato pervasivo sia nell'uno sia negli altri. Assieme a Thompson lavorò allo 
sviluppo di Multics anche Dennis Ritchie, autore, insieme a Brian Kernighan, di uno dei più famosi (se non il 
più famoso) libri dell'informatica: “The C Programming Language” (il linguaggio di programmazione C, spesso 
abbreviato come K&R dalle iniziali dei loro cognomi). Uno dei comandi di linea più utilizzati in ambito Unix (e 
non solo poiché ne esistono diversi cloni anche per Windows) è l'utilissimo grep che permette di eseguire 
ricerche di stringhe all'interno di uno o più file. Il suo nome è in realtà un acronimo: search Globally for lines 
matching the Regular Expression, and Print them” (ricerca globale e visualizzazione di righe corrispondenti 
alle espressioni regolari). 

Certamente il 1966 non è proprio il 1950, ma rimane un anno che rientra nella preistoria dell'informatica. Al 
giorno d'oggi, un programma, dopo due o tre anni viene già etichettato come “vecchio”, figuriamoci qualcosa 
che ha più di quarant'anni. 

Comunque, nonostante queste premesse, le regular expression sono vive e vegete e ancora presenti in tutti i 
linguaggi di programmazione più diffusi: Python, Ruby, Java, Javascript, Perl, PHP, C, C++, C#; perfino Visual 
Basic, alla fine, ha dovuto cedere alle loro lusinghe... 

Se siete arrivati fin qui nella lettura, sicuramente vi starete chiedendo spazientiti: “sì, va bene, abbiamo 
capito, ma adesso vogliamo sapere: cosa fanno di buono queste benedette espressioni regolari?” 

In una parola cercano. In due parole: cercano e sostituiscono. 


Organizzazione del libro 


Questo manuale è stato pensato e scritto come un'agile guida all'utilizzo delle regex. 

Nel primo capitolo cercheremo di rendere più chiara questa definizione un po' troppo stringata. 

Nel secondo capitolo presenteremo qualche strumento che ci permetterà di provare gli esempi e gli esercizi 
che incontreremo nel corso della lettura. 

Dal terzo al quindicesimo capitolo affronteremo tutti i costrutti delle regular expression (caratteri speciali, 
classi di caratteri, ancoraggi, quantificatori e così via). 

Dal sedicesimo al ventitreesimo capitolo vedremo come vari linguaggi ci mettono a disposizione le regex: 
Python, Ruby, Perl, PHP, Javascript, Java, .NET e Visual Basic. 

Nell'Appendice A daremo uno sguardo un po' più approfondito alla teoria che sta dietro alle regular 
expression e alle sue principali implementazioni. 

L'Appendice B è dedicata ad alcuni esempi di problemi comuni che si possono risolvere agilmente con una 
regex. 

L'Appendice C contiene una tabella riassuntiva, la classica Quick Reference delle regular expression. 


Capitolo 1 


Che cosa sono le regular expression? 


Nell'introduzione abbiamo già provato a rispondere a questa domanda: le regular expression sono oggetti 
che ci aiutano a cercare qualcosa nelle stringhe che utilizziamo nei nostri programmi ed eventualmente 
sostituire parti di esse. 

Stiamo dando per scontato che chi sta leggendo questo libro sappia che cosa sono le stringhe (in ambito 
informatico e non calzaturiero) e che le abbia usate all'interno dei propri programmi. Il concetto di stringa in 
un programma è basilare, per cui non ci soffermeremo oltre, ricordando solo che una stringa è costituita da 
una sequenza di caratteri di qualsiasi lunghezza. 

Esistono infiniti casi in cui può essere utile ricercare dei valori all'interno di una stringa. Per esempio 
un'espressione regolare può essere impiegata per capire se il formato della stringa è accettabile per i seguenti 
elementi: 


e un indirizzo di posta elettronica; 
CI una data; 

° un codice fiscale o un CAP; 

° un numero di carta di credito. 


Oppure possiamo estrarre una particolare sottostringa da una stringa più lunga: 


CI il nome di una variabile in un file di codice sorgente; 
o un'etichetta in una pagina HTML; 
o un valore in un file XML. 


Se dobbiamo svolgere uno qualsiasi di questi compiti in un programma abbiamo due alternative: sviluppare 
di volta in volta del codice adhoc oppure utilizzare le espressioni regolari. 

In questo momento non ci è ancora chiaro il vantaggio che può derivare dall'uso delle espressioni regolari, 
per cui esaminiamo un esempio reale. 

Supponiamo di voler cercare la presenza della parola ‘sia’ all'interno di un testo T. Ecco come potrebbe 
essere lo pseudocodice (o meglio l'algoritmo) che stampa tutte le posizioni N in cui nel testo è presente la 
parola ‘sia’: 
ciclo: fai scorrere N per tutta la lunghezza del testo T 


se i caratteri da N a N+2 sono "sia", allora 
stampa N 


Un po' prolisso, ma abbastanza facile. 
Ma, un momento... noi vogliamo cercare solo la parola ‘sia’, mentre con questo programma troveremo 
anche la parola “ansia” e “siamo”. Così com'è non va bene! 
Riproviamo: 
ciclo: fai scorrere N per tutta la lunghezza del testo T 
se i caratteri da N a N+2 sono "sia", allora 
se i caratteri N-1 e N+3 sono " ", allora 
stampa N 


Ancora più prolisso, ma almeno abbiamo eliminato i ‘falsi positivi”: il programma stamperà la posizione 
trovata solo quando la parola ‘sia’ è preceduta e seguita da uno spazio. 

Tutto a posto adesso? Non proprio: se il testo contiene lettere maiuscole, non troveremo tutte le parole che 
cerchiamo. 

Altro tentativo: 


ciclo: fai scorrere N per tutta la lunghezza del testo T 
se i caratteri da N a N+2 sono "sia" o "SIA" allora 
se i caratteri N-1 e N+3 sono " " allora 
stampa N 


Cosa rischiamo di non trovare, adesso? E se l'autore del testo si trovava in una particolare vena artistica e ha 
scritto siA o SiA o SIA? 
Nuova modifica: 


ciclo: fai scorrere N per tutta la lunghezza del testo T 
se il carattere N è "s" o "S" 
se il carattere N+1 è "i" o "I" 
se il carattere N+2 è "a" o "A" 
se i caratteri N-1 e N+3 sono " " allora 
stampa N 


Ora siamo a posto? Purtroppo ancora no! In quali casi rischiamo di perderci la parola “sia”? Se la parola si 
trova all'inizio o alla fine del testo, l'istruzione che controlla se è preceduta e seguita da uno spazio fallirà. Lo 
stesso accadrà se la parola ‘sia’ è seguita da un punto (come alla fine di una frase) o se è racchiusa fra 
virgolette. 

Per controllare i casi speciali appena elencati, il nostro algoritmo dovrebbe comportarsi in questo modo: 


ciclo: fai scorrere N per tutta la lunghezza del testo T 
se il carattere N è "s" o "S" 
se il carattere N+1 è "i" o "I" 
se il carattere N+2 è "a" o "A" 
se il carattere N-1 è 0 o non è una lettera 

se la posizione N+3 è maggiore 

della lunghezza di T o non contiene 

una lettera 
stampa N 


Forse ce l'abbiamo fatta. Questo codice dovrebbe andare bene. 


NOTA In realtà, volendo essere proprio pignoli, nel nostro algoritmo è rimasto un errore: la variabile N dovrebbe 
andare da 1 a lunghezza di T meno 3 altrimenti rischiamo di ottenere un errore quando controlliamo il valore 
dei caratteri da N+1 a N+3. 


Il compito che ci eravamo prefissi era in apparenza davvero semplice, ma il codice che abbiamo dovuto 
scrivere per gestire tutti i casi speciali non lo è di certo! 

E se invece avessimo usato le espressioni regolari? Quale espressione regolare individua la parola sia’? 

Eccola: 


\bsia\b 


Tutto qui. 

Questa semplice regex è soddisfatta ogni volta che la parola “sia” è preceduta o seguita da un terminatore di 
parola (la b deriva da boundary, limite). Un terminatore di parola può essere uno spazio, una virgola, un punto 
esclamativo, una coppia di virgolette, ma anche l'inizio o la fine della stringa; in parole povere tutto quello che 
non può far parte di una parola. 


NOTA All'interno della nostra regex, per distinguere il carattere speciale “b” dal carattere "b” vero e proprio, ci 
basta anteporre il simbolo “\° ovvero la barra inversa o backslash. Attenzione! Non è la barra che normalmente 
separa le parti di una data! 


Questo semplice esempio dovrebbe essere già sufficiente per dimostrare la maggior versatilità e semplicità 
delle regex. 

Se qualcuno avesse ancora dei dubbi, provi a immaginare il codice che dovrebbe scrivere per una ricerca 
complessa come la seguente. 

Trovare all'interno di una frase tutte le parole di otto lettere che contengono la sottostringa “tex”, ma non 
all'inizio e nemmeno alla fine di essa. 

Sicuramente i più curiosi vorranno vedere subito la regex che svolge questo specifico compito. Eccola qui: 


\b(?=\w{8}\b)\w{1,4}tex\w* 


Una sola riga, anzi, poco più di una ventina di caratteri e siamo a cavallo. 


Capitolo 2 


Come provare le regex? 


Leggere questo libro senza provare di volta in volta i diversi esempi presentati, sarebbe un esercizio di 
astrazione molto faticoso e, francamente, poco produttivo. Pertanto questo capitolo illustrerà qualche 
strumento che ci metterà in grado di verificare il funzionamento delle espressioni regolari che incontreremo 
di volta in volta nel corso della lettura delle prossime pagine. 

Possiamo suddividere gli strumenti in due gruppi: strumenti online e strumenti offline. I primi sono 
sostanzialmente siti che offrono la possibilità di collaudare le espressioni regolari tramite un comune browser; 
i secondi sono programmi da scaricare da Internet e da installare sul proprio PC. 

La seconda categoria si può ulteriormente suddividere fra programmi freeware (distribuiti gratuitamente, a 
volte addirittura a livello di codice sorgente) e programmi shareware (utilizzabili gratuitamente solo per un 
periodo di tempo limitato e/o con funzionalità limitate;per ottenere il funzionamento completo del programma 
è necessario provvedere al pagamento di una licenza, normalmente di costo abbastanza esiguo). Nella nostra 
selezione prenderemo in considerazione solo strumenti freeware, ovvero completamente gratuiti. 


Strumenti online 


Gli strumenti accessibili online sono senz'altro comodi per provare le espressioni regolari più semplici, 
mentre sono un po' carenti quando le regex si fanno più complesse. 

Un altro fatto da tenere in considerazione è che ogni indirizzo Internet, nel momento stesso in cui viene 
stampato su una pagina cartacea, corre il rischio di diventare obsoleto. 

Per questo motivo indicheremo un solo sito (fra i tanti) per illustrare le funzionalità generalmente offerte da 
questo genere di strumenti. 

Se poi intendete cercarli da soli, “babbo” Google sarà come sempre lieto di darvi una mano. 


NOTA Per trovare altri siti, potete, per esempio, utilizzare la seguente ricerca: regex OR regexp ‘online tester”. 


RegExLib 


Il sito www.regexlib.com raccoglie molte risorse relative alle regex. Una di queste è un tester online accessibile 
al seguente indirizzo: 


http://regexlib.com/RETester.aspx 


Nella Figura 2.1 vediamo l'output ottenuto provando l'espressione d'esempio del primo capitolo, ‘\bsia\b", che 
cercava la parola ‘sia’. 


vediamo se funziona bene con sia qmesta tra non con ansia o con 
23400, 


Submit | 














Figura 2.1 La regex d'esempio del primo capitolo. 


Nel primo campo (Source, sorgente) abbiamo inserito la stringa da esplorare; nel secondo campo (Pattern, 
modello) abbiamo inserito la regex e, dopo aver fatto clic sul pulsante Submit (sottoponi), possiamo verificare 
il risultato (Results, risultati e Match, corrispondenza). 

Come vediamo, la nostra regex ha funzionato correttamente: è stata individuata la parola “sia” ma non le 
parole “ansia” e “siamo”. 

Proviamo adesso l'espressione più complessa che abbiamo presentato alla fine del capitolo precedente: 
\b(?=\w{8}\b)\w{1,4}tex\w* 


Il compito che ci eravamo prefissi con questa regex era il seguente. 

Trovare all'interno di una frase tutte le parole di otto lettere che contengono la sottostringa “tex”, ma non 
all'inizio e nemmeno alla fine di essa. 

Nella Figura 2.2 vediamo che anche questa regex non ci delude: vengono infatti individuate le due parole di 
otto lettere “atexwill” e “willtexa”, che contengono la stringa “tex”, ma non la parola "texwille”, che inizia con la 
stringa tex”. 





questa frase contiene due parole che soddisfano la ricerca: 
queata atexwill, cuesta rwilltexa ma non questa texmille 


Pattern! 
\p(2=\w183}\b)\w{L,4)tex\uw7 














Figura 2.2 Una regex più complessa. 


Strumenti offline 


Gli strumenti offline, rispetto ai cugini online, richiedono un po' più di lavoro da parte nostra: dobbiamo 
cercare il sito che contiene il programma, verificare che esista la versione per il nostro sistema operativo e 
infine scaricare e installare il programma. 

Ma una volta svolti questi passi cominciano i vantaggi: normalmente le funzionalità e l'interfaccia sono 
migliori e naturalmente possiamo comodamente utilizzarli anche mentre non siamo connessi a Internet. 

Sceglieremo anche questa volta una sola opzione: Regex Coach. 

Regex Coach è forse tra i migliori programmi freeware e ha l'indubbio vantaggio di essere disponibile anche 
per sistemi operativi diversi da quello che, al 90%, usate normalmente sul vostro personal computer, ovvero 
anche per Linux, FreeBSD e Mac. 


NOTA Il 90% vi sembra una percentuale troppo elevata? Purtroppo è del tutto verosimile, come potete leggere 
nel seguente articolo: http://en.wikipedia.org/wiki/Comparison_of_Windows_and Linux. 


A onor del vero dobbiamo dire che Linux, FreeBSD e Mac OS X contengono già a livello di sistema 
operativo una serie di strumenti che utilizzano le regular expression (alcuni esempi sono grep, awk e vi). 


NOTA grep è un'utility che ricerca tramite le regex una stringa all'interno di uno o più file e/o directory. 

awk è un'utility che, tramite l'omonimo linguaggio di programmazione, permette di elaborare con le regular 
expression dati in formato testuale. 

vi è uno degli editor più diffusi; per le funzionalità di ricerca e sostituzione permette all'utente di utilizzare delle 
regex. 


Regex Coach 
Il sito dal quale possiamo scaricare questo programma è il seguente: 


http://weitz.de/regex-coach/ 


Non ci soffermeremo troppo sull'installazione perché, una volta scaricato e lanciato l'eseguibile, non ci sono 
particolari opzioni da scegliere. 

Comunque, per non lasciare nulla al caso, nelle Figure 2.3, 2.4 e 2.5 mostriamo la prima e le ultime due 
schermate dell'installazione. 





sio 


V'elcome to the The Regex Coach 
Setup Wizard 













This mil natali The Regex Conch 09.1 onyour computer 






Itiz esommentied that you cinse all other application: before 
conlinmang 






Click Nexi to continua, or Cancel to ek Setup. 








Figura 2.3 La prima pagina dell'installazione di Regex Coach. 


@ Setup - The Regex Coach 


Heady to Install 
Setupis now raadyto begh inetaling Tha Regak Coach an poui computer 


Cick Installto continue wilhthe nstalistion, ct cick Back il you wsrt to resin or 
changa any sallinga. 


Destinebon locato 
CiAProgiam Fies'\ The Reoex Coach 


Starl Meny falda: 
The Regex Conch 


Create a deskiop ion 





sola 


Completing the The Regex Coach 
Setup Wizard 


Setup has finishedinstaling The Regex Coach on pour 
compute:. The applicabon mey be launched by selecing the 
inztaled icons 


Chick Finish toexgt Seho 


KR Launch The Reoex Dosch 








Figura 2.5 La pagina finale, al termine dell'installazione. 


Il programma comprende anche la documentazione e un tutorial, anche se il suo uso è estremamente 
intuitivo e semplice. 

Per dimostrarne il funzionamento al di là di ogni ragionevole dubbio, nelle Figure 2.6, 2.7 e 2.8 mostriamo 
l'output ottenuto con le nostre due solite espressioni regolari (sia quella facile, sia quella più complessa). 

Nelle Figure 2.7 e 2.8 vediamo che nella stringa da cercare, nel campo Target string, compare il carattere ! 
(punto esclamativo) subito prima della fine della riga. Non siamo stati noi a inserirlo; il programma lo inserisce 
automaticamente quando deve andare a capo nel caso di un'espressione particolarmente lunga. In questo 
modo possiamo facilmente scoprire se ad andare a capo siamo stati noi o meno. 


NOTA Quando utilizzeremo esempi di regex su stringhe di più righe, sarà molto utile ricordarci di questo 
dettaglio. 
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finarerernro 
Tarpet sirgr 


odiamo so femzioma bene con sia questa ma son cea ansia o cea siamo. 
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Cond info | Tree |Fieokeca|Sok |So | 
Highlight [pes back rund 

F sdecin © 1 Pi Pa fa Ci 
C poeti FÉ Ci Cali LR Co 
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cede peo ei 





Figura 2.6 La regex *\bsia\b". 


UTAH AIA TO 


FONnarerearno 


Questa frase contiene due parele che soddisfano la ricerca: questa atoxulll, ? 
quosta willtexa ma non questa towwille 


Notchfton67tn 75. 
Contsal 


di Ca 


19 


PE all re 


Set gareg0 = Endotstma- 


pn ESSI era Re pa e 








Figura 2.7 La prima occorrenza della regex più complessa del primo capitolo. 





Fi dposroì Heap 
Biepudes mzencitei 
ADF" AMB} AD) ef 1, peo 





Flat eaterto 
Tosgei siirge 





Questa frase contiene dee parele che soddisfano la ricerca: questa atoxuill, ? 
quosta willtexa na non quosta texwillo 


Match E2 tom Bi bo O. 

Conbd lido | Tree |Fiepksce| Sok |Steo | 
Highlight (pres backag mundi 

serio (1 Pi fi na PE 
C phiro FL fi; (alti ec €10 


Sgan R2 on 5 Stot gine O 


Endatztmg - 
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Figura 2.8 La seconda occorrenza della regex più complessa del primo capitolo. 


Il programma Regex Coach evidenzia, di volta in volta, solo la prima occorrenza della regex che abbiamo 
inserito. Se vogliamo evidenziarle tutte dobbiamo selezionare l'opzione “g” che compare sulla destra della 
finestra principale, sotto il campo Regular expression. 

Nella Figura 2.9 vediamo in dettaglio ciò a cui facciamo riferimento: la prima occorrenza è evidenziata in 
giallo, le successive in verde. 


NOTA Come vedremo nei prossimi capitoli, le altre opzioni, ovvero ‘1°, m° e ‘s° so no modificatori che agiscono 
globalmente sulla regex; in breve “1° rende la regex insensibile alle lettere maiuscole e minuscole, mentre me ‘s 
rendono la regex operativa rispettivamente in modalità a righe multiple e singole. L'opzione “x” è caratteristica 


del linguaggio Perl e consente di ignorare tutti gli spazi bianchi all'interno della regex. 


Con Regex Coach possiamo anche provare a svolgere delle sostituzioni. 

Per farlo dobbiamo fare clic sulla scheda indicata dalla freccia nella Figura 2.10. In questo modo potremo 
inserire una seconda regex nel campo denominato Replacement string e nella parte inferiore della finestra, 
all'interno del campo Replacement result, potremo vedere il risultato della nostra sostituzione. 





Fb Auposocì Hob 


Fe pudes qeecrion 
1 
® 
“è 
rilalaffFo 
Tospet sig 





Se vogliano evideaziare tutte le striaghe della regex, dobbiamo cliccare 
sulla spzione "q'* suidenziata dalla Froccia. 


Notrhftoen85t0 47 
Cons info | Tree |Feskes|Sok [Sto | 
bacbigundì 





Figura 2.9 L'opzione “g” consente di evidenziare tutte le occorrenze trovate. 
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persalba che comanda, 
Cha canna è Cala 





Figura 2.10 Una sostituzione che ci riporta alle scuole elementari... 


NOTA La maggior parte degli esempi presenti in questo libro è stata collaudata con Regex Coach. Nei rari casi 
in cui questo non è accaduto, lo preciseremo chiaramente. 


Conclusioni 


In questo capitolo abbiamo introdotto alcuni strumenti che ci permetteranno di provare gli esempi presenti 
in questo libro. 

In particolare abbiamo presentato un sito Internet che offre la possibilità di provare online le regex. 

Quindi abbiamo presentato un programma di pubblico dominio da installare sul nostro PC per ottenere lo 
stesso risultato. 


Capitolo 3 


Caratteri normali e caratteri speciali 


Nel primo capitolo del volume abbiamo introdotto una regular expression molto semplice: 
\bsia\b 
Questa regex ci permette di trovare tutte le occorrenze della parola sia’ all'interno di una stringa. Come 


abbiamo già detto, il carattere “\b" corrisponde al “bordo” di una parola. 
Vediamola all'opera. 


NOTA Nel libro, useremo per gli esempi la seguente rappresentazione: prima il testo, poi l'espressione regolare e 
infine nuovamente il testo, nel quale sono state evidenziate le sottostringhe che soddisfano la regex. 


Testo: 


Questa regex ricerca la parola sia in una frase: ma 
siamo sicuri che sia corretta? 


Regex: 
\bsia\b 
Risultato: 
Questa regex ricerca la parola sia in una frase: ma 
siamo sicuri che sia corretta? 
NOTA Notiamo che la stringa sia” è evidenziata due volte e solo quando non fa parte di una stringa più ampia 
(come per esempio nella parola ‘siamo °). 
La nostra regex è composta dai sette caratteri seguenti: 
\b si a \b 


Si tratta di cinque caratteri normali (b, s, i, a, b) e di due barre inverse (o backslash). 
In realtà faremmo meglio a raggruppare i caratteri nel seguente modo: 


\b s i a \b 


Cosa differenzia la prima e l'ultima “b’ dai caratteri "s°, "i e “a”? I più attenti avranno già intuito la risposta: 
il backslash che le precede. 


Backslash e caratteri normali 


Se invece della parola “sia” avessimo voluto cercare la parola “bob”, avremmo dovuto utilizzare la seguente 
regex, altrettanto semplice: 


\bbob\b 


In questo caso, nella nostra regex ci sono ben quattro lettere “b”. Cosa differenzia la prima e l'ultima "b” 
dalle altre due? Come abbiamo già detto nel paragrafo precedente è il backslash le precede. 

Questa convenzione è importantissima: è proprio il codice “\” che ci permette di distinguere in una regular 
espression quando un carattere normale assume un significato speciale. 


NOTA Come sappiamo, in questo caso la b” preceduta da \"° assume il significato speciale di “bordo di una 
parola”. 


Esistono molti caratteri che, quando sono preceduti da un backslash, possono assumere un significato 
speciale. 

Il seguente elenco presenta tutti i caratteri speciali, accompagnati da una semplice descrizione. 

Non preoccupatevi se, per ora, alcune definizioni vi appaiono oscure; più avanti esamineremo in dettaglio 
ogni carattere speciale. 


Codice Bell (segnale acustico). 





\A 
Bordo di una parola. 


\B Tutto tranne \b. 


Codice di controllo (Ctrl). 


Codice di tabulazione. 


Codice di un carattere Unicode. 





Codice di tabulazione verticale. 


Carattere di una parola. 


Codice di un carattere ASCII. 





Fine del testo. 





Per ora accontentiamoci di sapere che questi caratteri, se preceduti da un backslash, assumono un 
significato speciale. 

Vediamo ancora in azione un esempio in cui utilizziamo il carattere speciale "\b". 

Testo: 
Hai uno splendido localino, bob! 
Hai uno splendido localino, bobby! 


Regex: 
\bbob\b 
Risultato: 


Hai uno splendido localino, bob! 
Hai uno splendido localino, bobby! 


Se avessimo cercato solo “bob”, senza i codici ‘\b", avremmo ottenuto un risultato differente. 
Testo: 


Hai uno splendido localino, bob! 
Hai uno splendido localino, bobby! 


Regex: 
bob 
Risultato: 


Hai uno splendido localino, bob! 
Hai uno splendido localino, bobby! 


Backslash e caratteri speciali 


Nelle regular expression, il simbolo di backslash “\" ha una funzionalità duplice e complementare: oltre a 
rendere speciali i caratteri normali (come abbiamo appena visto) è in grado di rendere normali i caratteri 
speciali. 

Come è possibile? Il fatto è che esistono alcuni caratteri che hanno un significato speciale già di per sé e, se 
vogliamo ricercarli così come sono, dobbiamo anteporgli il nostro caro ‘\”. 

Vediamoli in quest'altro elenco (di nuovo, non preoccupatevi troppo di comprendere appieno tutte le 
definizioni). 





5 Inizio della riga. 


$ Fine della riga. 


be 
A i 


eee 


NOTA Per ora l'unico elemento di questo elenco che dovrebbe esserci noto è l'ultimo: il backslash. 





Questi codici, come abbiamo appena detto, hanno un significato particolare all'interno di una regex, per cui, 
se vogliamo cercarli, dobbiamo anteporre loro un backslash. Per esempio, se vogliamo cercare la stringa 
"3*3=9", abbiamo il problema del carattere speciale ‘**. Vediamo come possiamo risolverlo con il backslash. 

Testo: 


6+3=9 e 3*3=9 ma 3+3=6 





Regex: 
3\*3=9 
Risultato: 
6+3=9 e 3*3=9 ma 3+3=6 





Cosa sarebbe successo se non avessimo usato il backslash? 
Testo: 


6+3=9 e 3*3=9 ma 3+3=6 
Regex: 

3*3=9 
Risultato: 

6+3=9 e 3*3=9 ma 3+3=6 





NOTA I! carattere speciale *” significa "0 o più”. Quindi la regex "3*3=9 cerca una stringa composta da °3=9, 
preceduta da zero o più caratteri 3°. Nel nostro caso, la stringa ‘3=9" è però presente due volte, preceduta in 
entrambi in casi da zero occorrenze del carattere ‘3. 


E se volessimo cercare proprio il backslash? Semplice. 
Testo: 


Il carattere \ è molto speciale. 
Regex: 

\\ 
Risultato: 


Il carattere \ è molto speciale. 


Conclusioni 


In questo capitolo abbiamo scoperto che nelle regex esistono caratteri normali e caratteri speciali. 
A volte un carattere, se preceduto dal backslash, assume un significato particolare. 
Viceversa un codice speciale, se preceduto dal backslash, perde il proprio significato particolare. 


Capitolo 4 


Le stringhe semplici 


Utilizzare le regular expression per ricercare stringhe semplici ci fa venire in mente la classica espressione 
“sparare con un cannone a un uccellino”. 

L'immagine è forse un po' macabra, ma se impariamo a usare le regular expression, abbiamo sicuramente a 
disposizione uno strumento estremamente potente che però, se vogliamo, possiamo usare anche per compiti 
più semplici. 


Caratteri singoli 


Il compito più semplice in assoluto è senza dubbio la ricerca di un singolo carattere. Proviamo a cercare in 
una stringa il carattere “x”. 
Testo: 


Usare le regex per cercare una x è pura pigrizia 


Regex: 


Risultato: 
Usare le regex per cercare una x è pura pigrizia 


Non c'è molto da spiegare in questo esempio: l'espressione regolare è composta dal singolo carattere che 
vogliamo cercare. 

Appena più in alto nella “scala evolutiva” delle regex c'è la ricerca di un carattere speciale. Proviamo a 
cercare il carattere ”.°, come nell'esempio seguente. 

Testo: 


figural.tif 
figura2.tif 
figura3.tif 
figura4.tif 


Regex: 


Risultato: 


figural.tif 
figura2.tif 
figura3.tif 
figura4.tif 


NOTA Come vedremo nel prossimo capitolo, il simbolo ‘. ci permette di cercare un carattere qualsiasi. Pertanto, 
in questo esempio, tutti i caratteri soddisfano la nostra ricerca, in quanto, ovviamente, tutti i caratteri sono 
caratteri qualsiasi . 


” n 


Non è certo il risultato che volevamo ottenere. Come abbiamo detto nel capitolo precedente, il simbolo ‘.” è 
un codice speciale; pertanto, per utilizzarlo in una regex semplice, dobbiamo anteporgli il backslash. 
Testo: 


figural.tif 
figura2.tif 
figura3.tif 
figura4.tif 


Regex: 


Risultato: 


figural.tif 
figura2.tif 
figura3.tif 
figura4.tif 


Così va senz'altro meglio. 


Stringhe semplici 
Con le regex possiamo ovviamente ricercare anche le stringhe, composte da una sequenza di più caratteri. 


Per esempio proviamo a cercare la stringa “enza”. 
Testo: 


Senza dubbio ci vuole pazienza per imparare a usare le 
regex. Perfino Enza lo sa... 


Regex: 
enza 


Risultato: 


Senza dubbio ci vuole pazienza per imparare a usare le 
regex. Perfino Enza lo sa... 


I più attenti avranno notato che la regex non individua la stringa “Enza’ con l'iniziale maiuscola. Questo non 
è un errore: le regex sono estremamente rigorose, per cui distinguono tra lettere maiuscole e minuscole. 

Proviamo invece a ricercare la stringa “Enza”. 

Testo: 


Senza dubbio ci vuole pazienza per imparare a usare 
le regex. Perfino Enza lo sa... 


Regex: 


Enza 


Risultato: 


Senza dubbio ci vuole pazienza per imparare a usare le 
regex. Perfino Enza lo sa... 


Come ci aspettavamo, ora la regex trova “Enza” ma non ‘enza’. 

Come vedremo più avanti, esistono vari modi per cercare contemporaneamente sia Enza’ sia ‘enza’. Per gli 
impazienti ecco un paio di esempi: possiamo usare la regex "[eE]nza" oppure ‘(e'E)nza” oppure possiamo usare il 
modificatore che annulla la distinzione fra lettere maiuscole e minuscole (ma in quest'ultimo caso troveremmo 
anche le stringhe “ENZA”, “eNZzA'” e così via). 

Se ci serve, possiamo combinare nella stringa che stiamo cercando sia caratteri normali, sia caratteri 
speciali. 

Proviamo a cercare in un elenco di nomi di file tutte le estensioni . txt. 

Testo: 
filel.doc 
file2.txt 
txt3.java 
file4.txt 
file5.py 


Regex: 
\.txt 
Risultato: 


filel.doc 
file2.txt 
txt3.java 
file4.txt 


file5.py 


NOTA Notiamo come non sia stata individuata la stringa “txt” contenuta nel nome del terzo file: ciò è dovuto 
al fatto che nella prima parte della regex il codice \." ci permette di richiedere che il primo carattere della stringa 
sia il punto. 


Conclusioni 


In questo capitolo abbiamo esaminato le ricerche più semplici che possiamo realizzare con le regex: caratteri 
singoli o stringhe di caratteri di lunghezza fissa. 


Capitolo 5 


Il carattere jolly ".° 


Nei giochi di carte, il jolly può assumere il valore di qualunque altra carta. Anche nelle regex abbiamo il 
nostro jolly: il punto. 


Cercare un carattere qualsiasi: il simbolo ‘. 

Sicuramente può capitarci di dover trovare una stringa nella quale uno o più caratteri non sono definiti a 
priori. 

Per esempio, supponiamo di dover cercare tutte le parole di quattro lettere che finiscono per “ari” . L'idea di 
provare a cercarle tutte è abbastanza peregrina: “bari”, “cari”, “fari”, ‘lari’, “mari”, “nari”, “pari”, ‘rari’, sari’, 

‘tari”, “vari”... ma quante sono? 

E se ce ne fosse qualcuna errata? Per essere sicuri dovremmo provare a cercarle tutte e ventisei. 

In questi casi viene in nostro soccorso il carattere jolly. Vediamo come. 

Testo: 


Vediamo se posso trovare mari e nari, con una bravura 
senza pari e anche se sbaglio i wari. 


Regex: 
«ari 
Risultato: 


Vediamo se posso trovare mari e nari, con una bravura 
senza pari e anche se sbaglio i wari. 


Facile, no? In un colpo solo abbiamo trovato tutte e quattro le parole di quattro lettere che terminano con 
ari. 


NOTA Ir realtà, qui abbiamo semplificato un po' troppo le cose: se la frase contenesse anche una o più parole 
come “luminari” o “cantinari” avremmo avuto qualche problema. Nel risultato sarebbero infatti state evidenziate 
anche queste parole, o meglio le loro ultime quattro lettere. Nei prossimi capitoli vedremo come evitare questo 
problema usando il terminatore di parola ‘\b" o i set di caratteri. 


E se dovessimo trovare tutte le parole di quattro lettere che iniziano con la lettera "b”? 
È altrettanto semplice. 
Testo: 


Tutti i beri sono bari. E tanti baci a tutti... 


Regex: 


Risultato: 
Tutti i beri sono bari. E tanti baci a tutti... 
NOTA Inutile dire che anche qui avremmo potuto incorrere in altrettanti “falsi positivi’: se avessimo avuto 


qualche altra lettera "b” in qualunque punto di una parola, sarebbe stata evidenziata insieme alle tre lettere 
seguenti. 


Non solo lettere 


Dobbiamo però considerare il fatto che il carattere jolly equivale a qualsiasi carattere, non solo alle lettere: il 
punto individua anche lo spazio, le cifre e i caratteri speciali. L'unico carattere che non corrisponde al punto è 
il codice ‘\n" (a-capo). 


NOTA I? realtà il carattere “.° può individuare anche il codice \n (a-capo): però dobbiamo attivare la modalità 
‘riga singola” con il modificatore "/s°, come vedremo nel capitolo sui modificatori. 


L'esempio che segue chiarisce quanto appena detto. 


Testo: 
Ma siamo sicuri di trovare solo le parole di quattro 
lettere che finiscono in ari? 
(ari o 4ari dicevamo?) 
Regex: 
‘ari 


Risultato: 


Ma siamo sicuri di trovare solo le parole di quattro 
lettere che finiscono in ari? 
(ari o 4ari dicevamo?) 


Come volevasi dimostrare abbiamo trovato più occorrenze, che però non sono mai parole di quattro lettere. 
Il punto individua anche lo spazio, la parentesi tonda e la cifra ‘4°. 


Conclusioni 


In questo capitolo abbiamo visto come utilizzare il carattere punto ”.° per ricercare stringhe nelle quali uno 
o più caratteri non sono noti a priori. 
Abbiamo anche segnalato alcuni dei possibili problemi che possiamo incontrare usando tale carattere. 


Capitolo 6 


Cifre e spazi: \d, \D, \s e \S 


Spesso può essere necessario cercare una cifra all'interno di un testo, in una data posizione. 

Viceversa, possiamo talvolta voler evidenziare tutti i caratteri tranne le cifre. 

In una regex possiamo ottenere questi risultati con i comandi “\d” (l'insieme delle dieci cifre decimali) e ‘\D" 
(l'insieme complementare, ovvero tutti i caratteri tranne le dieci cifre). 

Due comandi analoghi, che per questo includiamo in questo capitolo, sono ‘\s° e ‘\S”. Il primo individua solo 
il carattere di spazio, mentre il secondo individua tutti gli altri caratteri. 


Le cifre: \d e \D 


In una regular expression possiamo richiedere che in una data posizione sia presente una cifra qualsiasi. 
Per esempio, se volessimo individuare una data in un testo potremmo usare "\d" nel seguente modo. 
Testo: 


La data di nascita di John von Neumann è il 
28/12/1903. 
La data di nascita di Linus Torvalds è il 28/12/1969. 


Regex: 
\d\d/\d\d/\d\d\d\d 
Risultato: 


La data di nascita di John von Neumann è il 
28/12/1903. 
La data di nascita di Linus Torvalds è il 28/12/1969. 


NOTA Questa regex permette di individuare solo le date in cui il giorno e il mese sono composti da due cifre, 
l'anno è composto da quattro cifre e i valori sono separati da una barra (o slash). Ovviamente, come vedremo nei 
prossimi capitoli, le regex offrono la possibilità di ricercare le date in modo più flessibile e avanzato. 


Se utilizziamo la versione maiuscola del comando, ‘\D", possiamo individuare tutti i caratteri diversi dalle 
cifre. 

Vediamo un esempio. 

Testo: 


Ris: (123+341)*44/2=10208 
Regex: 

\D 
Risultato: 

Ris: (123+341)*44/2=10208 


Gli spazi: \s e \S 


In una regex possiamo anche distinguere il carattere spazio tramite il comando ‘\s°. 
Testo: 


"Parole, parole, parole e musica!" 
Questa riga è preceduta da tre spazi. 


Regex: 
\s 
Risultato: 


"Parole, parole, parole e musica!" 
Questa riga è preceduta da tre spazi. 


Così come accade con i comandi ‘\d" e “\D", la versione maiuscola "\S" ci permette di individuare tutti i 
caratteri diversi da uno spazio. 
Testo: 


FRS BLD 78N12 L513A 
BRE MRC 64P23 L6110 


Regex: 
\S 
Risultato: 


FRS BLD 78N12 L513A 
BRE MRC 64P23 L6110 


Conclusioni 


In questo capitolo abbiamo visto come specificare tramite una regex la presenza di una cifra qualsiasi oppure 
di un qualsiasi carattere diverso da una cifra, rispettivamente con ‘\d" e ‘\D°. 

In modo analogo possiamo cercare uno spazio oppure ogni carattere tranne lo spazio, rispettivamente con ” 
\s" e "\S”, 


Capitolo 7 


I set di caratteri: | ] 


Nei capitoli precedenti abbiamo visto come possiamo usare il carattere jolly “.” al posto di qualsiasi carattere 
e come possiamo individuare alcune classi di caratteri (cifre e spazi). 

Sicuramente sono possibilità interessanti, ma sarebbe ancora più utile poter specificare un qualsiasi insieme 
(o set) di caratteri. 

Le regex ci permettono di svolgere questi tipi di ricerche grazie ai caratteri speciali “[" e “]” (le parentesi 
quadre aperta e chiusa). 


Un insieme di caratteri: [ |] 


In una regular expression possiamo specificare un insieme di caratteri in una data posizione. 
La sintassi è molto semplice e possiamo rendercene conto osservando il seguente esempio. 
Testo: 


file_1.doc 
file_a.doc 
file_b.doc 
file_c.doc 
file_z.doc 
file_d.doc 
file_e.doc 
file_f.doc 


Regex: 
file_[abcde]\.doc 
Risultato: 


file_1.doc 

file_a.doc file_b.doc file_c.doc 
file_z.doc 

file _d.doc 

file_e.doc 

file_f.doc 


NOTA Nella regex abbiamo anteposto al punto il \" (backslash). Ormai dovremmo sapere che nelle regex alcuni 
caratteri hanno un significato speciale (il punto è uno di questi); per cercarli dobbiamo pertanto anteporgli il 


simbolo di backslash. 


Possiamo sfruttare questa possibilità se dobbiamo cercare una parola ma non sappiamo se inizia o meno con 
una lettera maiuscola. 
Testo: 


Marco in Germania ha speso qualche marco di troppo... 
Regex: 
[Mmj]arco 
Risultato: 
Marco in Germania ha speso qualche marco di troppo... 
In questo modo abbiamo potuto cercare nel testo sia la stringa “Marco” sia la stringa “marco”. 


NOTA Un set può contenere diversi caratteri, ma comunque individua uno solo di essi. Nell'esempio precedente 
la prima stringa trovata è individuata dal carattere “M” e la seconda dal carattere “m°. In pratica un set di 
caratteri individua una stringa di lunghezza 1. 


Sequenze di caratteri: [ - ] 


Nel primo esempio di questo capitolo abbiamo provato a cercare una stringa in cui il sesto carattere poteva 
essere a, b, c, d oppure e. 
file_[abcde]\.doc 


Ma se avessimo voluto cercare un carattere alfabetico qualsiasi? Ecco come possiamo farlo senza specificare 
tutti i 26 caratteri alfabetici. 
Testo: 


file_1.doc 
file_a.doc 
file_b.doc 
file_c.doc 
file_z.doc 
file_d.doc 
file_e.doc 
file_f.doc 


Regex: 
file_[a-z]\.doc 
Risultato: 


file_1.doc 

file_a.doc 
file_b.doc 
file_c.doc 
file_z.doc 
file_d.doc 
file_e.doc 
file_f.doc 


Se all'interno delle parentesi quadre specifichiamo due caratteri separati da un trattino "-”, la regex individua 
i due caratteri in questione e tutti quelli compresi tra di essi. 


NOTA I caratteri che precedono e seguono il trattino devono essere in ordine crescente di codice ASCII. In altre 
parole, l'intervallo "A-Z” comprende tutte le lettere maiuscole; viceversa l'intervallo “Z-A” non comprende 
proprio nulla (nella maggior parte dei casi produrrà un errore). 


Possiamo utilizzare anche sequenze numeriche. 
Testo: 

doc_1l.txt 

doc_2.txt 

doc_a.txt 

doc_b.txt 

doc_3.txt 


Regex: 
doc_[0-9]\.txt 
Risultato: 


doc_1.txt doc _2.txt 
doc_a.txt 

doc_b.txt 

doc_3.txt 


La regex è soddisfatta da ogni carattere compreso nell'intervallo 0-9. 


NOTA Il trattino -” è un carattere “quasi-speciale’: al di fuori di un set può essere usato tranquillamente in una 
regex, mentre all'interno di un set possiamo specificarlo solo in prima o ultima posizione (oppure anteporgli il 
backslash), come nel seguente esempio. 


Testo: 


abcd 
1234-5678 


pippo-pluto 


Regex: 
[0-9-] 
Risultato: 


abcd 
1234-5678 


pippo-pluto 
NOTA Nella regex [0-9-]' il primo trattino indica la sequenza dei caratteri da “0° a "9" mentre il secondo 
(l'ultimo carattere del set) permette alla sequenza di individuare anche il trattino stesso. 


All'interno dello stesso set possiamo anche utilizzare più sequenze. 
Testo: 


print chr(0x43) 
print "I" 

print chr(65) 
print chr(0x4F) 


Regex: 
0x[0-9A-F][0-9A-F] 
Risultato: 


print chr(0x43) 
print "I" 

print chr(65) 
print chr(0x4F) 


NOTA In questo esempio siamo riusciti a individuare tutti i numeri esadecimali di due lettere. 


Tutti i caratteri “tranne’: [* ] 


Talvolta può essere più comodo specificare che desideriamo cercare tutti i caratteri tranne alcuni. 
Per esempio immaginiamo di voler escludere dalla nostra ricerca le cifre “1°, “2”, ‘3° e lo spazio. 
Testo: 


Non ci interessano le cifre come 1, 2 e 3 e lo spazio 
ma tutto il resto sì, compreso 4, 5 e 6. 


Regex: 
[4123 ] 
Risultato: 
Non ci interessano le cifre come 1, 2 e 3 e lo spazio ma tutto il resto sì, compreso 4, 5 e 6. 


Il carattere * (accento circonflesso) indica pertanto la negazione all'interno di un set. Ovviamente possiamo 
anche specificare con una negazione una o più sequenze di caratteri con uno o più caratteri singoli, come nel 
seguente esempio. 

Testo: 


Adesso invece non ci interessano le cifre come 1, 2 e 
3, le lettere come abcd, lo spazio e la virgola. 


Regex: 
[*a-z ,0-9] 
Risultato: 
Adesso invece non ci interessano le cifre come 1, 2 e 
3, le lettere come abcd, lo spazio e la virgola. 
NOTA Come possiamo notare, gli unici caratteri individuati dalla nostra regex sono il primo (la lettera “A” 
maiuscola) e l'ultimo (il punto). 


Se volessimo inserire il carattere ‘’* all'interno di un set possiamo farlo tranquillamente, usando però 
l'accortezza di non metterlo in prima posizione. 
Testo: 


Possiamo anche inserire l'apice * in un set, basta non 
metterlo per primo. 


Regex: 
A 
Risultato: 


Possiamo anche inserire l'apice * in un set, basta non 
metterlo per primo. 


Conclusioni 


In questo capitolo abbiamo visto come chiedere a una regex di individuare più caratteri in una data 
posizione, utilizzando “[" e “]” (le parentesi quadre). 

Possiamo specificare manualmente i caratteri desiderati, oppure possiamo indicare una o più sequenze o, 
infine, utilizzare la negazione (tutti i caratteri tranne...) tramite il carattere “*° (accento circonflesso) 
specificato nella prima posizione dopo la parentesi quadra aperta. 


Capitolo 8 


Le parole: \b, \B, \w e \W 


Finora abbiamo imparato a individuare, in un modo o nell'altro, dei caratteri: cifre, lettere, spazi, caratteri 
speciali e così via. 

Con questo capitolo cominciamo a esplorare alcune nuove entità che rendono ancora più efficaci le regex: i 
terminatori (o bordi) di parola “\b" e ‘\B°. 

Inoltre introdurremo l'uso degli identificatori di parola: "\w" e “\W°. 


I bordi di una parola: \b 


In uno degli esempi dei capitoli precedenti abbiamo visto come individuare le parole che terminano con una 
determinata stringa. 

Ma se volessimo individuare solo le parole di tre lettere come potremmo fare? Potremmo forse usare lo 
spazio, ‘\s"? 

Vediamo. 

Testo: 


Tre lettere? Poche, ma non osiamo di più per ora. 
Regex: 

\s...\s 
Risultato: 

Tre lettere? Poche, ma non osiamo di più per ora. 


Su cinque parole ne abbiamo trovate solo due. Per di più la regex ha individuato anche gli spazi intorno alle 
due parole individuate: ciò è normale, in quanto abbiamo specificato espressamente i codici ‘\s" prima e dopo i 
tre caratteri jolly. 

Come possiamo fare? 

Proviamo a usare il terminatore di parola ‘\b”. 

Testo: 


Tre lettere? Poche, ma non osiamo di più per ora. 
Regex: 

\b...\b 
Risultato: 

Tre lettere? Poche, ma non osiamo di più per ora. 


Adesso abbiamo esagerato! È vero che sono state individuate tutte e cinque le parole di tre lettere, ma 
abbiamo trovato anche due parole di due lettere... 

Come mai? Semplice, perché il carattere jolly è soddisfatto anche dallo spazio, per cui, nel caso della parola 
“ma’, la virgola corrisponde al primo ‘\b", lo spazio e le lettere “m” e “a” corrispondo ai tre caratteri jolly e 
infine lo spazio dopo la parola corrisponde al secondo ‘“\b”. 


NOTA È importantissimo comprendere un concetto fondamentale delle regex: il terminatore di parola ‘*\b" ha 
dimensione zero! Si dice infatti che è un ‘ancoraggio’, termine che spiegheremo in dettaglio nel prossimo 
paragrafo. Nel caso della frase “Ciao Lucia” ci sono ben quattro posizioni che soddisfano il terminatore ‘\b": 
prima della “C°, dopo la ‘o, prima della "L’ e infine dopo l'ultima “a”. Vediamolo in un esempio. 


Testo: 
Ciao Lucia 

Regex: 
\b. 

Risultato: 


Ciao Lucia 


Qui sono stati individuati solo tre dei terminatori. Dopo l'ultimo infatti non c'è più alcun carattere e quindi il 
carattere jolly che segue il codice "\b" nella regex non può essere soddisfatto. 

Proviamo a utilizzare anche i set di caratteri. 

Testo: 


Tre lettere? Poche, ma non osiamo di più per ora. 
Regex: 

\b[a-zA-Z][a-zA-Z][a-zA-Z]\b 
Risultato: 

Tre lettere? Poche, ma non osiamo di più per ora. 


Ci siamo avvicinati, ma manca ancora una parola di tre lettere: “più”. Il risultato è corretto, perché nel set 
abbiamo inserito solo le lettere normali, mentre la lettera “ù” è accentata. 

A questo punto potremmo iniziare a riempire i nostri set di caratteri accentati minuscoli, maiuscoli e così 
via... 

E la soluzione corretta? Ovviamente no. Vediamo nei prossimi paragrafi cosa possiamo fare. 


Gli ancoraggi 


Nel paragrafo precedente abbiamo detto che i comandi “\b" e “\B" hanno dimensione zero e fanno parte 
dell'insieme degli ancoraggi. 

Il termine è molto intuitivo e raggruppa tutte le istruzioni che in qualche modo agganciano (da qui il 
termine ancorare) la regex a una specifica posizione all'interno della stringa. 

In pratica un ancoraggio non individua un carattere, ma il punto di separazione fra due caratteri (oppure 
anche, come vedremo, tra l'inizio della stringa e il primo carattere o tra l'ultimo carattere e la fine della 
stringa). 

Ecco un esempio che chiarirà meglio le idee. 

Testo: 


Dove sono i bordi in questa stringa? 
Regex: 

\b 
Risultato: 

Dove sono i bordi in questa stringa? 


Nessun errore di stampa: non è stato individuato nemmeno un carattere. 

In realtà, in questa stringa ci sono molte posizioni che soddisferebbero l'ancoraggio ‘"\b. 
Riproviamo. 

Testo: 


Dove sono i bordi in questa stringa? 
Regex: 

\b[a-zA-Z] 
Risultato: 

Dove sono i bordi in questa stringa? 


In questo esempio abbiamo individuato i bordi di parola seguiti da una lettera qualsiasi, minuscola o 
maiuscola. 


NOTA Il concetto di ancoraggio è davvero fondamentale e indispensabile nelle regular expression. Nei prossimi 
capitoli incontreremo altri ancoraggi molto utili. 


I caratteri di una parola: \w 


Per evidenziare facilmente tutte le parole di tre lettere ci basterebbe avere a disposizione un comando che 
sia soddisfatto da tutto tranne che dai caratteri che indicano un bordo di parola. 

Esiste questa entità? Ovviamente sì; si tratta di "\w". 

Vediamo un esempio. 

Testo: 


Tre lettere? Poche, ma non osiamo di più per ora. 


Regex: 
\b\w\w\w\b 
Risultato: 
Tre lettere? Poche, ma non osiamo di più per ora. 
Finalmente! Adesso siamo riusciti ad trovare tutte le parole di tre lettere; nulla di più e nulla di meno. 


NOTA Quali sono i caratteri che individuano il bordo di una parola? Purtroppo nelle varie versioni dei motori di 
regex e in base al linguaggio possono esserci differenze minime, che normalmente non ci devono preoccupare. 
Possiamo però avere una certezza: ‘\b" e *\w° sono perfettamente complementari. 


I non bordi’ e i “non caratteri’: \B e \W 


” 


Cominciamo dalla versione inversa di “\w": "\W°. 
Il codice “\W" individua ogni carattere che rappresenta un bordo di una parola. 
Un paio di esempi ci chiariranno le idee più di ogni spiegazione. 
Testo: 

l'#$7&'(0*+,-./0123456789:;<=>? 

@ABCDEFGHIJKLMNOPORSTUVWXYZ[\]!_ 

‘abcdefghijklmnopgrstuvwxyz{}}- 


Regex: 
\W 
Risultato: 


l'#$7&'()"+,-./0123456789:;<=>? 
@ ABCDEFGHIJKLMNOPORSTUVWXYZ[\]®_ 
‘abcdefghijklmnopqrstuvwxyz{!}- 


La regex “\W° individua tutti i caratteri tranne le lettere, le cifre e il carattere di sottolineatura. 
Facciamo la controprova. 
Testo: 


l"#$7&'()*+,-./0123456789:;<=>? 
@ABCDEFGHIJKLMNOPORSTUVWXYZ[\]"_ 
‘abcdefghijklmnopgrstuvwxyz{l}- 


Regex: 
\w 
Risultato: 


l'#8%&'()'+,-./0123456789:;<=>? 
@ABCDEFGHIJKLMNOPORSTUVWXYZ[\]%_ 
‘abcdefghijklmnopqrstuvwxyz{}}- 


Ora abbiamo la conferma che i caratteri individuati da "\w" e “\W" sono perfettamente complementari. 

La contrapposizione fra ‘\b" e "\B" merita un discorso un pochino più complesso. 

Cominciamo subito col dire che anche “\B" è un ancoraggio e che "\b" e ‘\B" sono uno la negazione 
dell'altro. Quindi, per capire quali posizioni vengono individuate da “\B", dobbiamo pensare a quali sono quelle 
corrispondenti a ‘\b”. 

La regex "\b" individua ogni posizione che precede o segue un carattere terminatore di parola, quindi, per 
esclusione, ‘\B" individua tutte le altre. In altre parole l'ancoraggio ‘\B" individua ogni posizione tra due 
caratteri che non sono terminatori. 

Supponiamo di voler trovare tutte le parole di un elenco che contengono il numero ‘42°. 

Proviamo a usare una regex che sfrutta il comando “\w". 

Testo: 


pippo 
a42b 
1442 
ab42cd 
prova 


Regex: 
\w42\w 


Risultato: 


pippo 
a42b 
1442 
ab42cd 
prova 


Abbiamo trovato i due “42” che cercavamo, ma sono stati evidenziati anche i caratteri che li precedono e li 
seguono. 

Se vogliamo trovare solo i “42” interni alle parole dobbiamo usare il comando ‘\B°. 

Testo: 


pippo 
a42h 
1442 
ab42cd 
prova 


Regex: 
\B42\B 
Risultato: 
pippo 
a42b 
1442 


ab42cd 
prova 


Perfetto! La nostra regex ha individuato solo i "42" (e nessun'altra parte della stringa). 


Conclusioni 


In questo capitolo abbiamo incontrato la prima entità che ha dimensione zero: il bordo di una parola *\b". 

Abbiamo introdotto il concetto di ancoraggio, che indica la possibilità di agganciare una regex a una 
particolare posizione all'interno della stringa. 

Abbiamo anche visto il comando che rappresenta tutti caratteri che non sono bordi di una parola: "\w". 

Come normalmente succede con le regex, i corrispondenti maiuscoli “\B" e ‘\W° individuano le negazioni 
delle entità “minuscole”. 


Capitolo 9 


L'inizio e la fine: ‘*, $, \A e \Z 


Negli esempi che abbiamo incontrato finora abbiamo visto genericamente dei frammenti di testo nei quali 
effettuare le ricerche con le regular expression. 
In realtà, nella maggior parte dei casi, ci troveremo a effettuare ricerche all'interno di file di testo e, quindi, 
a ragionare in termini di singole righe di testo. 
È quindi chiara l'utilità degli ancoraggi che stiamo per introdurre e che ci permettono di individuare l'inizio 
e la fine di una riga: "*’ (l'accento circonflesso) e ‘$" (il simbolo di dollaro). 
Se necessario potremo anche individuare la posizione di inizio e fine dell'intero file con gli ancoraggi "\A" e 
\4. 
Pazientiamo ancora un pochino: questo è l'ultimo capitolo dedicato ai comandi semplici: dal prossimo 
capitolo entreremo più nel vivo delle regex! 


” 


L'inizio e la fine di una riga: * e $ 
Da un file di testo che abbiamo ricevuto via email dobbiamo estrarre tutte le righe di quattro caratteri 
composte unicamente da cifre. Non è un compito difficile da svolgere visivamente, ma diventa più complesso 
se dobbiamo farlo con un programma (ma se il file fosse di grandi dimensioni, anche l'operazione manuale 
richiederebbe del tempo). 
Come è facile intuire, visto il tema di questo libro, una semplicissima regex può venire in nostro soccorso. 
Testo: 


abcd 
1234 
ab12 
123 


Regex: 
\d\d\d\d$ 
Risultato: 


abced 
1234 
ab12 
123 


Abbiamo già visto in precedenza il significato del comando “\d", che individua ogni carattere numerico, 
mentre i due nuovi ancoraggi che abbiamo introdotto sono "” (l'accento circonflesso), che individua l'inizio di 
una riga, e ‘$" (il dollaro), che individua la fine di una riga. 


NOTA Per far sì che gli ancoraggi "” e ‘$" individuino l'inizio e la fine di ogni riga, dobbiamo attivare la 
modalità multi-riga del motore di regex che stiamo utilizzando. In questo modo il testo viene considerato come 
una serie di righe distinte, separate in corrispondenza dei caratteri di a-capo. 


NOTA Se, per collaudare questa regex, stiamo usando Regex Coach, ricordiamoci di selezionare il modificatore 
‘m° come indicato nella Figura 9.1. In questo modo il testo sarà considerato multi-riga e potremo simulare un 
file composto da più righe di testo. 


Vediamo un altro esempio, in questo caso proviamo a cercare la stringa “via” o “Via” ma solo all'inizio di 
una riga. 
Testo: 


Moravia 
via Roma 
Vianello 
Via Veneto 
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Figura 9.1 Regex Coach con il modificatore multi-riga attivato. 
Regex: 

*[Vv]ia\s 
Risultato: 


Moravia 
via Roma 
Vianello 
Via Veneto 


Come per l'ancoraggio "\b", vediamo ora cosa succede se utilizziamo il codice “$" da solo. 
Testo: 


Dove finisco con il punto di domanda? 
Chi lo sa? Io no... 

Qui? No! 

Dove? 


Regex: 


Risultato: 


Dove finisco con il punto di domanda? 
Chi lo sa? Io no... 

Qui? No! 

Dove? 


Anche in questo caso non ci sono errori di stampa: cercare solo un ancoraggio con una regex non ha molto 
senso. 

Riproviamo aggiungendo un carattere (per di più si tratta di un carattere speciale, reso normale dal 
backslash che lo precede). 

Testo: 


Dove finisco con il punto di domanda? 
Chi lo sa? Io no... 
Qui? No! 
Dove? 
Regex: 
\?$ 
Risultato: 


Dove finisco con il punto di domanda? 
Chi lo sa? Io no... 


Qui? No! 
Dove? 


Questo esempio ha già più senso: abbiamo evidenziato gli unici due punti di domanda che si trovano in 
fondo alla riga e non quelli posti in altre posizioni. 


L'inizio e la fine del testo: \A e \Z 


I due ancoraggi “** e “$” possono individuare l'inizio e la fine di ogni riga in modalità multiriga o l'inizio e la 
fine di tutto il testo in modalità normale. 

Esistono due ancoraggi che invece, in qualunque modalità, individuano sempre e comunque l'inizio e la fine 
di tutto il testo; si tratta di "\A" e "\Z". 

Vediamoli all'opera in un paio di esempi. Testo: 
<HTML> 
<P>Qui non potrei usare <HTML> 0 </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 
</HTML> 


Regex: 
\A<HTML> 
Risultato: 


<HTMI> 

<P>Qui non potrei usare <HTML> 0 </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HTML> 


Come possiamo notare, è stato evidenziato solo il primo “<HTML>" e non quello presente nella seconda riga. 
Se non avessimo utilizzato l'ancoraggio “\A" sarebbero stati evidenziati entrambi . 

Riproviamo ora cercando il tag “</HTML>” finale. 

Testo: 


<HTML> 
<P>Qui non potrei usare <HTML> 0 </HTML>, ma lo uso lo 


stesso solo per questo esempio</P> 
</HTML> 


Regex: 
</HTML>\Z 
Risultato: 


<HTML> 

<P>Qui non potrei usare <HTML> 0 </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HTML> 


Va da sé che questa volta, senza specificare l'ancoraggio “\Z" avremmo trovato anche il tag “</HTML>" della 
seconda riga. 


Conclusioni 


In questo capitolo abbiamo visto come possiamo individuare con una regular expression l'inizio o la fine di 
una riga di testo con gli ancoraggi “*” (accento circonflesso) e “$" (dollaro). 

Abbiamo inoltre visto come individuare le posizioni di inizio e fine testo (o file) con gli ancoraggi "\A" e ” 
\Zi: 


Capitolo 10 


I quantificatori: +, *, ? e {...} 


Come promesso, da questo capitolo entriamo nel vivo delle regex. 

Negli esempi incontrati finora, nelle nostre regular expression abbiamo sempre utilizzato un numero 
prefissato di caratteri. Sicuramente qualcuno si sarà chiesto come fare quando questa lunghezza non è nota a 
priori: come trovare le stringhe composte unicamente da cifre, di qualsiasi lunghezza oppure tutte le righe di 
un file composte unicamente da lettere maiuscole? 

I quantificatori sono stati definiti proprio per soddisfare queste e altre esigenze. 


Uno o più caratteri: + 


Nel paragrafo precedente ci siamo posti il problema di trovare le stringhe composte unicamente da cifre, 
senza sapere però quante. 

Come abbiamo già visto, possiamo indicare una cifra con ‘\d" e il bordo di una parola con ‘\b”. 

Usando una combinazione di queste due istruzioni possiamo, per esempio, trovare le stringhe composte tra 
tre cifre. 

Testo: 


abcd 123 ab123cd 4567 eccetera 890 1, 2, 3... 
Regex: 

\b\d\d\d\b 
Risultato: 

abcd 123 ab123cd 4567 eccetera 890 1, 2, 3... 


Facile! 

Sarebbe altrettanto facile individuare le stringhe composte da una sola cifra oppure da due o da quante 
vogliamo. 

Ma come individuare in un colpo solo tutte le stringhe composte genericamente da un numero qualsiasi di 
cifre? 

La soluzione è rappresentata dal quantificatore ‘+.’ Il suo significato è: “considera una o più occorrenze 
dell'espressione precedente”. 

Vediamo come usare il quantificatore ‘+’ per risolvere il nostro problema. 

Testo: 


abcd 123 ab123cd 4567 eccetera 890 1, 2, 3... 
Regex: 

\b\d+\b 
Risultato: 

abcd 123 ab123cd 4567 eccetera 890 1, 2, 3... 


Se volessimo utilizzare al posto di ‘\d" il set "[0-9]" dovremmo adottare un semplice accorgimento: il 
quantificatore “+’ deve seguire la parentesi quadra. 
Testo: 


abcd 123 ab123cd 4567 eccetera 890 1, 2, 3... 
Regex: 

\b[0-9]+\b 
Risultato: 

abcd 123 ab123cd 4567 eccetera 890 1, 2, 3... 


Come vediamo il risultato è lo stesso. 
Proviamo ora a capire cosa fa la seguente regular expression: 


\w+@\w+\.\w+ 


Non sembra poi così complessa... Il simbolo “@” senz'altro è un indizio importante. Forse ha a che fare con 
gli indirizzi di posta elettronica? 

Vediamo se abbiamo indovinato. 

Testo: 


Per piacere inviate le domande per la FSF e per la GNU 

a gnu@gnu.org. 

Per piacere inviate link non funzionanti o altre 

correzioni o suggerimenti a webmasters@gnu.org. 
Regex: 

\w+@\w+\.\w+ 


Risultato: 


Per piacere inviate le domande per la FSF e per la GNU 
agnu@gnu.org. 

Per piacere inviate link non funzionanti o altre 
correzioni o suggerimenti a webmasters@gnu.org. 


Niente male per una regex di una dozzina di caratteri: è riuscita a trovare tutti gli indirizzi di posta 
elettronica presenti nel testo. 

Ma siamo sicuri che sarebbero stati evidenziati tutti gli indirizzi validi? 

Riproviamo con un testo diverso. 

Testo: 
Complimenti e insulti per questi esempi possono essere 
spediti a tizio.caio@posta.biz o a sempronio@casella.postale.it. 


Regex: 
\w+@\w+\.\w+ 
Risultato: 


Complimenti e insulti per questi esempi possono essere 
spediti a tizio.caio@posta.biz o a sempronio@casella.postale.it. 

In effetti era troppo bello per essere vero: in questo esempio ci sono due indirizzi di posta validi che però 
non sono stati correttamente individuati. 

Il problema in questo caso è che il punto può anche appartenere a un indirizzo di posta elettronica 
formalmente corretto. 

Proviamo una versione leggermente più estesa della regex. 

Testo: 
Complimenti e insulti per questi esempi possono essere 
spediti a tizio.caio@posta.biz o a sempronio@casella.postale.it. 


Regex: 
[\w.]+@[\w.]+\.\w+ 
Risultato: 


Complimenti e insulti per questi esempi possono essere 
spediti a tizio.caio@posta.biz o a sempronio@casella. postale.it. 


Ecco fatto! Adesso la regex funziona come ci aspettavamo. È bastato utilizzare al posto di “\w" il set "[\w.]" 
per indicare alla regex che nelle parti di un indirizzo di email può essere compreso anche il punto . 


NOTA Il carattere speciale “.° (il jolly) può essere utilizzato così com'è all'interno di un set senza dover 
anteporre il backslash. Se proprio vogliamo, possiamo anche specificarlo, ma ciò non è obbligatorio in un set. 


Zero o più caratteri: * 
Nel paragrafo precedente abbiamo scritto una regex che cerca gli indirizzi email grazie al quantificatore "+": 
[\w.]+@[\w.]+\.\w+ 


La prima versione della regex non ci permetteva di trovare tutti gli indirizzi contenenti il carattere punto, 
ma quest'ultima versione ha corretto il problema. 

Ma, forse, ne ha introdotto un altro. Vediamo quale. 

Testo: 


Questo indirizzo è valido: .tizio.caio@posta.biz? 
No! Questo invece sì: tizio.caio@posta.biz. 


Regex: 
[\w.]+@[\w.]+\\\w+ 
Risultato: 


Questo indirizzo è valido: .tizio.caio@posta.biz? 
No! Questo invece sì: tizio.caio @ posta.biz. 


Il secondo indirizzo è stato evidenziato correttamente, ma nel primo c'è un punto di troppo all'inizio. 
Se togliamo il punto dal primo set della regex risolviamo questo problema reintroducendone un altro. 
Testo: 


Questo indirizzo è valido: .tizio.caio@posta.biz? 
No! Questo invece sì: tizio.caio@posta.biz. 


Regex: 
\w+@[\w.]+\.\w+ 
Risultato: 


Questo indirizzo è valido: .tizio.caio@posta.biz? 
No! Questo invece sì: tizio.caio@posta.biz. 


Come volevasi dimostrare... 

Ma, per fortuna, anche in questo caso esiste una soluzione per i nostri problemi: il quantificatore 
(l'asterisco). Questo quantificatore è molto simile a ‘+’, tranne per un piccolo particolare: infatti il suo 
significato è il seguente: “considera zero o più occorrenze dell'espressione precedente”. L'unica differenza è 
proprio lo “zero” che, nel caso del quantificatore “+, era un “uno”. 

Con "*” possiamo anche richiedere che l'espressione precedente sia del tutto assente. 

Vediamo ora una nuova regex che corregge il problema degli indirizzi di posta elettronica preceduti da un 
punto. 

Testo: 


7 
#4” 


Questo indirizzo è valido: .tizio.caio@posta.biz? 
No! Questo invece sì: tizio.caio@posta.biz. 
Regex: 
\w+[\w.]*@[\w.]+\.\w+ 
Risultato: 


Questo indirizzo è valido: .tizio.caio@posta.biz ? 
No! Questo invece sì: tizio.caio@ posta.biz. 


Eureka! Adesso anche questo problema è risolto. 
Come funziona la nostra nuova regex? Proviamo ad analizzare la parte che precede il simbolo “@'”: 


\w+[\w.]® 


Come funziona? 

I primi tre caratteri "\w+" chiedono che in prima posizione sia presente qualsiasi carattere alfanumerico (più 
il simbolo di sottolineatura) . 

A partire dalla seconda posizione può invece essere presente anche il punto. Attenzione: abbiamo detto 
“può” e non “deve”! Proprio per questo, dopo il set “[\w.]" abbiamo specificato il quantificatore ‘**, che indica 
la presenza di zero o più occorrenze. 


Espressioni opzionali (zero o uno): ? 


Il quantificatore “?” è un po' particolare perché indica che l'espressione che lo precede può essere presente 
solo zero o una volta, non di più. 

È una specie di operatore “opzionale”, nel senso che rende opzionale la presenza di ciò che lo precede. 

Testo: 


Ma come si scrive obiettivo? 
Sii obbiettivo e non obbbiettivo nella risposta... 


Regex: 


obb?iettivo 


Risultato: 


Ma come si scrive obiettivo? 
Sii obbiettivo e non obbbiettivo nella risposta... 


La regex "obb?iettivo” è quasi una stringa fissa, dove l'unico carattere che può essere presente o meno è la 
seconda “b’. E infatti dopo di essa abbiamo specificato il quantificatore opzionale "?”. 

Correttamente, la parola errata contenente un'ulteriore terza “b’ (ovvero la parola “obbbiettivo”) non è stata 
individuata. 

Un esempio forse più interessante può essere la regex che cerca la prima parte degli indirizzi dei siti web, 
che possono iniziare con “http" o ‘https’. 

Testo: 


Il motore di ricerca è http://www.google.com mentre la 
mail è https://www.gmail.com. 


Regex: 
https?:// 
Risultato: 


Il motore di ricerca è http://www.google.com mentre la 
mail è https://www.gmail.com. 


Numero di ripetizioni: {...} 


Con i quantificatori “+, “** e ”?” potremmo pensare di avere soddisfatto le esigenze più complesse 
riguardanti le ripetizioni di caratteri o di espressioni. 

Ovviamente non è così. 

Pensiamo, per esempio, ai prefissi telefonici italiani: esistono due prefissi di due cifre (02 e 06, 
rispettivamente per Milano e Roma), poi ne esistono ventotto di tre cifre, circa un paio di centinaia (per 
l'esattezza duecentouno) di quattro cifre e, infine, esistono i prefissi degli operatori mobili (iniziano tutti per 3 
e sono in numero indefinito e sempre crescente, anche grazie al fatto che in Italia ci sono più cellulari pro 
capite che non libri). 

Sappiamo già come specificare una cifra in una regex: indifferentemente ‘“\d" o ‘[0-9]". Sappiamo anche 
come indicare zero, una o un numero indefinito di occorrenze di un'espressione. Qui però dobbiamo dire alla 
regex che ci possono essere due, tre o quattro cifre, non di più e non di meno. 

Lo possiamo fare? Certo, con il quantificatore ‘{}" (le parentesi graffe) che ci permette di indicare un 
numero o un determinato intervallo di ripetizioni. 

Se all'interno delle parentesi graffe inseriamo un solo numero (per esempio ‘{3}"), allora stiamo definendo il 
numero esatto di ripetizioni; se inseriamo due numeri separati da una virgola, stiamo indicando un intervallo, 
per esempio ‘{2,4}"). 

Con il nostro nuovo strumento, proviamo a scrivere una regex che evidenzi tutti (e solo) i prefissi corretti. 

Testo: 


0321-4421233 
4-324234 
45553-1231231 
06-234234 
02-122345 
02421-124124 
0332-012312 
335-23234 


Regex: 
A\d{2,4}\b 
Risultato: 


0321-4421233 
4-324234 
45553-1231231 
06-234234 
02-122345 
02421-124124 
0332-012312 
335-23234 


Sembra funzionare, siamo infatti riusciti a evidenziare solo i prefissi composti da due, tre o quattro cifre. 
Proviamo un esempio diverso e altrettanto significativo: il controllo del codice fiscale. 
Testo: 


BREMRC64P23L234Q 
BREMRC64P23L2342 
BREMR064P23L234Q 
BREMRC6P23L234Q 
BREMRC64P23L23440 


Regex: 
*[A-Z]{6}\d{2}[A-Z]\d{2}[A-Z]\d{3}[A-Z]$ 
Risultato: 


BREMRC64P23L234Q 
BREMRC64P23L2342 
BREMR064P23L2340 
BREMRC6P23L234Q 
BREMRC64P23L23440 


La regex è solo apparentemente complessa ma, se la analizziamo in dettaglio, ci rendiamo conto che non è 
così. 


È naturalmente possibile che il codice fiscale sia formalmente corretto, ma che non lo sia dal punto di vista 
semantico (per esempio, l'ultimo carattere è un checksum che deve essere calcolato con un algoritmo 
abbastanza complesso che si basa sui quindici caratteri precedenti). 





NOTA I! checksum è una forma di ridondanza in cui un bit, un byte, un carattere o comunque una parte del 
valore viene introdotta con l'unico scopo di stabilire se il resto del valore è corretto. 


Dobbiamo capire che le regex non si sostituiscono alla programmazione vera e propria, ma costituiscono un 
valido aiuto al fine di evitare noiosi controlli. E molto più facile verificare un codice fiscale se abbiamo la 
certezza di avere almeno le lettere e le cifre nelle posizioni corrette. 


NOTA Per i più curiosi, l'algoritmo di calcolo del codice fiscale è descritto sul sito dell'Agenzia delle Entrate al 
seguente indirizzo: http://www.agenziaentrate.it/ilwwem/connect/Nsi/Servizi/Codice+fiscale+- 
+Tessera+Sanitaria/Codice+fiscale/NSI+Informazioni+sulla+codificazione+delle+persone+fisiche. N.B. Diciamo pure 
che l'indirizzo rispetta la “grazia” dell'algoritmo. 


A proposito delle ripetizioni, ci rimane solo da accennare agli intervalli aperti. 

Abbiamo detto che il quantificatore "{m,n}" definisce un intervallo preciso di ripetizioni di espressioni, dove 
“n° deve essere un numero maggiore di “m°” (in realtà può anche essere uguale a “n° ma a quel punto è 
sufficiente la forma contratta “{m}"). Ma se per ipotesi non conoscessimo il limite massimo di occorrenze? 
Certo, potremmo esagerare inserendo un numero molto grande, ma questo ci lascerebbe quella sgradevole 
sensazione di non aver fatto le cose nel modo migliore. 

Per esaudire questa possibilità esiste la forma aperta del quantificatore: “{n,}". In questo modo viene 
specificato il numero minimo ma non il numero massimo, che a questo punto può essere grande a piacere. 

Vediamo nell'esempio seguente come estrarre da una lista tutti inumeri composti da almeno tre cifre. 

Testo: 


0 
666 
23 9 1964 


1234567890123456789012345678901234567890 
44 


Regex: 
\b\d{3,}\b 
Risultato: 


0 

666 

23 9 1964 
1234567890123456789012345678901234567890 
44 


NOTA I più attenti avranno probabilmente intuito che l'intervallo aperto ‘10,}” equivale al quantificatore *° 
(asterisco) mentre 11,}” equivale a “+”. 


Ingordigia o pigrizia? 
Nel capitolo precedente abbiamo visto in un esempio come evidenziare il tag “<HTML>"” all'inizio di un testo 


HTML. 
Testo: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HTML> 


Regex: 
\A<HTML> 
Risultato: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HTML> 


Forse adesso possiamo usare il nostro quantificatore “+ per evidenziare tutti i tag in un colpo solo. Vediamo 
se ci riusciamo. 
Testo: 


<HTML> 

<P>Qui non potrei usare <HTML> 0 </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HTML> 


Regex: 
<.+> 


Risultato: 


<HTML> 
<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo stesso solo per questo esempio</P> 
</HTML> 


Uhm... non è successo quello che pensavamo: è stato evidenziato tutto il testo. 

Come mai? 

Questo è dovuto semplicemente alla proverbiale ingordigia dei quantificatori delle regular expression. 
Vediamo cosa succede all'interno del motore (in inglese engine) di controllo delle regex. 

La prima parte della nostra espressione, il carattere “<”, è subito soddisfatta dall'inizio del testo. 

Subito dopo incontriamo l'espressione ‘.+ che indica la ripetizione a volontà di qualsiasi carattere. In questo 
modo il motore continua a consumare fino alla fine tutti i caratteri del testo. 

Solo a questo punto, poiché la nostra regex ha una terza e ultima parte (il carattere >") il motore torna sui 
propri passi (in inglese backtrack) per cercare di soddisfare anche questa condizione e vi riesce subito grazie 
all'ultimo carattere del testo. 


NOTA In realtà il motore avrebbe potuto tornare sui propri passi ben più a lungo. Non trovando il carattere 
desiderato ‘>’ sarebbe tornato, prima di fallire, addirittura fino al carattere successivo alla lettera ‘H' del primo 


‘<HTML> “ Infatti il quantificatore “+ richiede almeno una ripetizione dell'espressione che lo precede. 


Possiamo correggere, o meglio, modificare questo comportamento? 

Sì, in almeno due modi. Il primo, più semplice, è quello impigrire la normale ingordigia di un quantificatore. 
Per fare ciò dobbiamo inserire dopo il quantificatore il modificatore ‘?” (punto interrogativo). 

Vediamo la nuova versione della nostra regex. 

Testo: 


<HTML> 

<P>Qui non potrei usare <HTML> 0 </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HTML> 


Regex: 
<+?> 
Risultato: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HTML> 


NOTA Non dobbiamo confondere il significato del ©?” posto dopo un quantificatore con il °?” posto dopo 
un'espressione: nel primo caso funge da modificatore (tramutando l'ingordigia in pigrizia) mentre nel secondo 
agisce direttamente come quantificatore (ripetizione di zero o una volta). 


Questa modalità però non è molto efficiente, perché obbliga comunque il motore a tornare sui propri passi 
quando il quantificatore pigro deve essere esteso per raggiungere il carattere ‘>’ successivo. 


NOTA In caso di ingordigia, il backtrack avviene all'indietro, mentre in caso di pigrizia avviene in avanti. 
Nonostante questo, si tratta lo stesso di un “tornare sui propri passi’, per cui lo chiamiamo ancora backtrack. 


Molto meglio utilizzare il secondo modo, lasciando che il quantificatore ‘+’ sia ingordo ma togliendo il 
carattere ‘>’ tra quelli cercati. 

Vediamo la versione più efficiente della nostra regex. 

Testo: 


<HIML> 

<P>Qui non potrei usare <HTML> 0 </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</ATML> 


Regex: 
< [} >] +> 
Risultato: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HTML> 


NOTA Ingordigia e pigrizia sono la traduzione letterale dei termini inglesi “greediness’ e ‘laziness’, usati spesso 
nelle istruzioni in lingua anglosassone per definire questi concetti nelle regex. 


Conclusioni 


In questo capitolo abbiamo imparato a usare i quantificatori. 
Il quantificatore “+” indica la ripetizione di una o più volte dell'espressione precedente. 
Il quantificatore ‘* indica la ripetizione di zero o più volte dell'espressione precedente. 

Il quantificatore “?” indica la ripetizione di zero o una volta dell'espressione precedente. 

I quantificatori "{}" indicano la ripetizione di un numero ‘“{n}" o di un intervallo preciso “{n,m}" di volte 
dell'espressione che li precede. 

Abbiamo anche affrontato il concetto di ingordigia delle regex e di come trasformarla in pigrizia con il 


modificatore ‘“?”. 


Capitolo 11 


Gruppi e alternative: (...) e | 


Nel campo della programmazione il concetto di blocco di istruzioni è basilare: il corpo di un if, di una 
funzione, di un metodo sono blocchi, costituiti da un insieme di istruzioni. 

Anche nelle regex possiamo raggruppare tra di loro diverse espressioni in modo da ottenere risultati 
altrimenti impossibili. 


Gruppo di espressioni: (...) 


Abbiamo appena imparato a usare i quantificatori, ma già potrebbe esserci venuto in mente qualche dubbio. 
Per esempio, come possiamo applicare un quantificatore a due caratteri consecutivi? 

Proviamo a cercare una o più ripetizioni della stringa “xy”. 

L'espressione “xy+'” fa sì che solo la “y” sia oggetto del quantificatore "+. Infatti, nell'esempio seguente, la 
seconda stringa individuata, “xyyy”, rappresenta un errore. 

Testo: 


bc + xy + zz 
fg + xxyyy 
XYXY 
Regex: 
xXy+ 
Risultato: 


bc + xy + zz 


fo + xxyyy 
XyXy 


NOTA Esiste anche un altro problema, più subdolo e nascosto: l'ultima riga, “xyxy, è evidenziata dalla stringa 
regex “xy+ che la considera come due diverse occorrenze affiancate; ma dal punto di vista logico e anche 
secondo il nostro desiderio, dovrebbe essere individuata come una sola occorrenza costituita dalla ripetizione 
della stringa “xy”. 


L'espressione “x+y+' invece non otterrebbe il risultato sperato, perché cercherebbe la ripetizione della 
stringa “x seguita dalla ripetizione della stringa "y”. 
Nell'esempio seguente, la seconda stringa evidenziata, “xxyyy”, rappresenta un errore. 
Testo: 
bc + xy + zz 
fg + xxyyy 
SVEY 
Regex: 
x+y+ 


Risultato: 


bc + xy + zz 


fg + xxyyy 
XyXxyY 


NOTA Anche in questo esempio c'è l'errore, non immediatamente percepibile, della doppia occorrenza di “xy” 
nell'ultima stringa evidenziata. 


Come possiamo risolvere il problema? Semplice, usando i gruppi di espressioni realizzati tramite le parentesi 
tonde, ‘(). 

Vediamo dunque come possiamo cercare la ripetizione di xy. 

Testo: 


bc + xy + zz 
fg + xxyyy 


XyYXyY 
Regex: 
(xy)+ 
Risultato: 


bc + xy + zz 
fg + xxyyy 
XYXY 
Questa volta la terza stringa evidenziata "xyxy, costituisce, correttamente, una sola occorrenza nella nostra 
ricerca. 


Riferimenti all'indietro 


Il titolo di questo paragrafo è una traduzione, più o meno letterale, del termine inglese backreference. Ma in 
cosa consiste questo riferimento all'indietro? 

Quando collochiamo più espressioni semplici fra due parentesi tonde, creiamo un gruppo, il quale può essere 
riutilizzato all'interno della stessa ricerca oppure per effettuare una sostituzione. 

Vediamo come possiamo usare la backreference per una ricerca complessa. 

Nell'esempio seguente proviamo a cercare tutte le parole di quattro lettere che si possono leggere anche al 
contrario. 

Testo: 


anna va alla fontana, con otto vasi. 
Regex: 

\b(\w(\w)\2\1\b 
Risultato: 


anna va alla fontana, con otto vasi. 


NOTA Per gli appassionati di enigmistica (ma anche per gli altri), queste parole si chiamano palindrome. 


Come funziona la regex? Analizziamola in dettaglio come abbiamo già fatto in precedenza con gli esempi 
più complessi: 


\b ancoraggio per il bordo di una parola; 
un carattere raggruppato per la backreference 1; 








\l ripetizione del gruppo 1; 
ancoraggio per il bordo di una parola. 

In questo modo siamo riusciti a evidenziare, fra le parole di quattro lettere, unicamente quelle che hanno le 
ultime due lettere uguali alle prime, ma in ordine inverso. 





NOTA Forse qualcuno si starà chiedendo se esiste o meno una regular expression in grado di trovare tutte le 
parole palindrome di lunghezza arbitraria. Purtroppo la risposta a questa domanda è negativa. Dovremo 
utilizzare una regex diversa per ogni lunghezza desiderata. Per esempio, per i palindromi di cinque lettere, 
occorre utilizzare la seguente espressione: \b(\w)(\w)\w\2\1\b% 


Proviamo ora a usare una backreference per effettuare un'interessante sostituzione. 

Immaginiamo di avere un file contenente un elenco di cognomi e di nomi divisi da una virgola e di volerli 
invertire, sostituendo inoltre la virgola con uno spazio. 

Testo: 


Beri, Marco 
Bianchi, Massimo 
De Rossi,Luca 
Bucci,Beppe 
Verdi,Anton Giulio 


Regex: 
*([".1+).([.]H)$ 


Risultato: 


Beri, Marco 
Bianchi,Massimo 
De Rossi,Luca 
Bucci,Beppe 
Verdi,Anton Giulio 


Regex sostituzione: 
\2 \1 
Risultato sostituzione: 


Marco Beri 
Massimo Bianchi 
Luca De Rossi 
Beppe Bucci 

Anton Giulio Verdi 


La prima regex di ricerca individua semplicemente due gruppi di lettere divisi dalla virgola, mentre la regex 
di sostituzione inverte questi due gruppi separandoli con uno spazio. 

Immaginiamo un file di testo contenente colonne di dati esportate da un foglio elettronico; dobbiamo 
reimportare questi dati in un database. Esistono strumenti in grado di caricare rapidamente una grande mole 
di dati in una tabella, ma normalmente richiedono di operare su file già “condizionati”, dove le colonne di dati 
si trovano al posto giusto. 

La backreference può essere utilissima in questi casi, per riorganizzare in poco tempo le colonne nell'ordine 
preferito. Ancora meglio se queste colonne sono separate da un carattere come la virgola, che può anche 
essere contenuta in uno dei campi di dati (spesso un campo per indirizzi può contenere la virgola). Nel capitolo 
dedicato agli esempi vedremo una complessa espressione che ci permetterà di risolvere questo problema. 


NOTA Chiaramente in un caso come il precedente i campi che possono contenere il carattere separatore sono a 
loro volta delimitati da due caratteri speciali, normalmente i doppi apici, "" 


Gruppi con nome: (?P<...>... 


Come abbiamo senza dubbio intuito, la backreference è uno strumento molto utile e versatile, soprattutto in 
fase di sostituzione. 

Le regular expression che la usano possono però rischiare di diventare molto complesse e di conseguenza di 
difficile interpretazione da persone diverse dal loro autore (ma, dopo qualche mese, anche da lui stesso). 

Per questo motivo, alcuni motori di regex hanno introdotto una sintassi per dare un nome che si sostituisca 
alla numerazione di default dei gruppi. 

Il primo a introdurre questa sintassi è stato Python che ha, in qualche modo, tracciato la strada con questa 
sintassi: 


(?P<nome>espressione) 

Una volta assegnato un nome al gruppo di espressioni, possiamo riutilizzarlo con la seguente sintassi: 
(?P=nome) 

Oppure possiamo riutilizzarlo all'interno della regex di sostituzione con questa sintassi: 
\g<nome> 


Rivediamo le due regex che abbiamo usato per invertire il nome e il cognome in uno degli esempi 
precedenti: 


“[°.1+).([".14)$ 
1 \2 


E adesso riscriviamo le stesse due regex utilizzando però due gruppi con nome: 


*(?P<cognome>["*,]+),(?P<nome>[*,]+)$ 
\g<nome> \g<cognome> 


Sicuramente, a colpo d'occhio, in quest'ultima versione risultano molto più leggibili e mnemoniche rispetto 
alla versione precedente. 

Altri motori hanno poi seguito i passi del motore delle regex di Python, mantenendo la stessa sintassi, 
chiara e logica. 


NOTA Quando è stata la volta di .NET, come purtroppo accade troppo spesso, i programmatori Microsoft hanno 
preferito usare una sintassi differente, che non è stata adottata da nessun altro motore di regex: ‘(? 


<nome>espressione). Come possiamo vedere, hanno scelto di non usare la “P’ che precede il punto interrogativo. 
Inoltre, per distinguersi ulteriormente, hanno aggiunto una seconda possibile sintassi: (?'nome'espressione). 


Sfortunatamente Regex Coach non è implementato con un motore in grado di supportare questa sintassi; 
pertanto, per utilizzare questa caratteristica, dobbiamo usare uno dei motori che abbiamo appena elencato. 
Vari capitoli di questo libro sono dedicati a loro. 


Gruppo passivo: (?: ) 

La backreference è uno strumento molto potente che, come spesso accade, richiede una notevole mole di 
risorse. Nel caso del motore delle regex le risorse in questione sono il tempo e la memoria. 

Per questo motivo dovremmo usare la backreference solo quando è assolutamente necessaria; in caso 
contrario rischieremmo di allungare inutilmente i tempi di esecuzione della nostra regex. Senza dubbio 
esistono situazioni in cui può essere necessario usare il raggruppamento di espressioni, ma non la conseguente 
backreference. In questi casi particolari possiamo usare il cosiddetto gruppo passivo: 95 

Rivediamo l'esempio della regex in cui cercavamo la ripetizione di “xy”. 

Proviamo a cambiare forma. 

Testo: 


bc + xy + zz 
fo + xxyyy 
XYXy 
Regex: 
(Qxy)+ 
Risultato: 


bc + xy + zz 
fo + xxyyy 
IVSV 
Il risultato finale non è cambiato, solo che questa volta non abbiamo impegnato inutilmente il motore delle 
regular expression nella gestione della backreference. 


Alternativa: | 


Molto spesso, soprattutto quando dobbiamo cercare o sostituire delle stringhe usando i gruppi, nasce 
l'esigenza di specificare più regex che devono però essere soddisfatte in alternativa tra loro. 

Inutile dire che anche questo caso può essere gestito con un apposito carattere speciale: "!” (la barra 
verticale, in inglese pipe). 

Nel prossimo esempio vogliamo individuare in un elenco tutti i nomi di file che rappresentano file di codice 
sorgente Python (ovvero con estensione “.py) o PHP (con estensione ”.php'). 

Testo: 


filel.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Regex: 
\.py|\.php 
Risultato: 


filel.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 


file6.java 


Le estensioni dei due nomi ‘file1.py” e ‘file5.php’ vengono correttamente individuate, ma lo è anche quella di 
"file4.pyc” che però non stavamo cercando. Proviamo allora a specificare in fondo alla nostra espressione il 


” 


codice di fine riga ‘$°. 


Testo: 


filel.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Regex: 
\.py\.php$ 
Risultato: 


filel.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Non è cambiato nulla. Come mai? 

Il problema sta nell'ordine di precedenza degli operatori nelle regex. L'operatore "1" ha la precedenza su tutti 
gli altri operatori, per cui, in mancanza di raggruppamenti, chiede al motore della regex di cercare quello che 
sta alla sua sinistra oppure quello che sta alla sua destra. 

Nel caso della regex "\.py!\php$" gli stiamo chiedendo di cercare la stringa ‘.py’ oppure la stringa ”.php" 
presente (ma solo questa seconda) in fondo alla riga. Se vogliamo che vengano individuate entrambe le 
estensioni quando si trovano in fondo alla riga, abbiamo due possibilità. La prima, meno elegante, consiste nel 
ripetere il simbolo di fine riga "$" in entrambe le espressioni. 

Testo: 


filel.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Regex: 
\.py$\.php$ 
Risultato: 


filel.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


La seconda, più compatta ed elegante, permette invece usare il raggruppamento ‘()° per le estensioni, 
estraendo dal gruppo le parti comuni (il punto e il codice di fine riga). 
Testo: 


filel.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Regex: 
\(?:pyiphp)$ 
Risultato: 


filel.py 
file2.doc 
file3.txt 


file4.pyc 
file5.php 
file6.java 


NOTA Osserviamo il gruppo passivo ‘(?:" che abbiamo utilizzato per non appesantire inutilmente il lavoro del 
motore delle regex. 


Possiamo anche specificare più alternative, indicando più caratteri ‘!”. 
Testo: 


filel.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Regex: 
\.(?:py!php!java)$ 
Risultato: 


filel.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


A questo punto, se volessimo creare una regex che individui non solo l'estensione ma l'intero nome dei file 
che stiamo cercando, come dovremmo fare? In questo modo. 
Testo: 


file1l.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Regex: 
M[*.TA(?:pyiphpljava)$ 
Risultato: 


file1.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


NOTA Quando usiamo il carattere speciale jolly (il punto) all'interno di un set T ]°, possiamo anche evitare di 
anteporgli il backslash. 


Conclusioni 


In questo capitolo abbiamo visto come possiamo raggruppare tra loro le espressioni semplici grazie 
all'impiego delle parentesi tonde ‘()°. 

Quindi abbiamo scoperto che i gruppi di espressioni possono essere riutilizzati con la backreference *\1°, "\2° 
e così via. 

Se ci servono i gruppi ma non la conseguente backreference, possiamo usare il raggruppamento passivo 
(2 

Nel caso in cui ci serva una sola fra più stringhe alternative, possiamo usare il carattere speciale ‘!” (barra 
verticale o pipe). 


Capitolo 12 


Unicode e ASCII: \u e \x 


La storia di Unicode è molto più recente rispetto a quella delle regex, ma, ciononostante, con quello che 
Internet e la globalizzazione rappresentano, è indispensabile conoscerne almeno i rudimenti. 

Quando produciamo un'entità informatica (un programma, una pagina web, un documento, un messaggio 
di posta elettronica) se vogliamo sperare che sia leggibile anche da qualcuno che sta dall'altra parte del mondo, 
allora dovremmo conoscere come funziona Unicode. 

Senza volerne dare una trattazione esaustiva, vedremo cosa rappresenta a grandi linee lo standard Unicode 
e come le regex lo hanno adottato. 


Unicode 


La definizione più semplice di Unicode è la seguente: è uno standard internazionale per rendere 
rappresentabile da un computer ogni carattere e ogni simbolo in qualunque scrittura esistente. 

Probabilmente molti pensano che per ottenere questo nobile scopo lo standard Unicode non abbia fatto 
altro che utilizzare per ogni carattere due byte invece che l'usuale singolo byte. 

Questo è, purtroppo, del tutto inesatto: con due byte si potrebbero definire solo 65.536 caratteri distinti, 
mentre l'ultima versione dello standard Unicode, la 5.0 del luglio 2006, ne definisce ben 99.024. 

Un altro importante concetto che riguarda Unicode è l'encoding (codifica). Unicode stabilisce l'elenco, la 
legenda di tutti i grafemi. Il grafema è l'idea base di lettera. Esiste il grafema della lettera “A”, il grafema della 
"B' e il grafema della "a”. 


NOTA Il grafema definisce il concetto di lettera ma non la modalità con cui viene rappresentata. La "A, la “A” 
o la “A” (rispettivamente la lettera A maiuscola in grassetto, in corsivo e sottolineata) sono diverse facce dello 
stesso grafema. La “a” minuscola invece è un grafema diverso. 


Il codice Unicode del grafema corrispondente alla lettera "A” è 0041. Quello della lettera "B” è 0042. Quello 
della lettera “a” è 0061. Ma poi, come vengono rappresentati in un computer tutti questi numeri ideali di 
grafemi? Tramite un encoding. Esistono numerosi encoding che traducono i grafemi in una serie di byte. 
Proprio per questo è importantissimo capire che, senza sapere quale encoding è stato utilizzato per la 
conversione in byte, non possiamo interpretare con assoluta certezza una normale stringa. 


NOTA Come abbiamo affermato all'inizio di questo capitolo, non volevamo dare una trattazione esaustiva e 
crediamo di aver mantenuto questa promessa. Chi intendesse approfondire questo importante aspetto 
dell'informatica può visitare il sito web http://www.unicode.org. 


Un carattere Unicode: \u e \U 


Non tutti i motori di regex permettono di inserire un codice Unicode in un'espressione, ma quelli che lo 
fanno normalmente aderiscono alla modalità suggerita dal comitato tecnico che definisce lo standard Unicode. 
Se vogliamo definire un code point a 4 cifre possiamo usare "\u" mentre se vogliamo utilizzare un code point a 
8 cifre possiamo usare “\U”. Per la lettera “A” possiamo quindi usare l'espressione “\u0041", mentre per il 
grafema "lettera peep in alfabeto Shaviano” dobbiamo usare ‘“\U00010450". 


NOTA L'alfabeto shaviano fu inventato nel 1958 da un certo Kingsley Read e si chiama così in onore di Bernard 
Shaw. Quest'ultimo credeva che fosse un notevole spreco di tempo e di carta usare l'alfabeto latino per scrivere in 
inglese e indisse un concorso per la scrittura più ergonomica. Il concorso fu vinto da Read e il suo alfabeto fu 
chiamato shaviano. Nella Figura 12.1 sono raffigurate le prime dieci consonanti di tale alfabeto, quanto meno 
anomalo. 


Non siamo così eccentrici da pensare che qualcuno debba scrivere una regex per cercare una lettera 
dell'alfabeto shaviano, visto che non è mai stato realmente usato nella vita di tutti i giorni. Potrebbe invece 
succedere, in un futuro più o meno remoto, che a qualcuno di noi capiti di dover scrivere una regular 
expression che contenga ideogrammi cinesi o indiani: in questo caso ci serviranno le istruzioni “\u" e ‘\U”. 


NOTA Regex Coach non supporta i comandi \w° e \U" ma possiamo vedere gli esempi del paragrafo seguente 
per capire come potremmo usarli in una regex. 


Un carattere ASCII: \x 


I comandi “\u" e “\U" non sono implementati in tutti i motori di regex, mentre normalmente lo è il 
corrispondente comando “\x" per definire un carattere tramite il suo codice ASCII. 

Per cercare la lettera “A” con “\x" potremmo usare la seguente regex. 

Testo: 


Abbiamo imparato a usare \x, poco cambierebbe con \u e 
\U. Anche loro sono seguiti da cifre 
(rispettivamente 4 e 8). 


SHAVIAN LETTER PEEP 
SHAVIAN LETTER TOT 
SHAVIAN LETTER KICK 
SHAVIAN LETTER FEE 
SHAVIAN LETTER THIGH 


SHAVIAN LETTER SO 
SHAVIAN LETTER SURE 
SHAVIAN LETTER CHURCH 
SHAVIAN LETTER YEA 
SHAVIAN LETTER HUNG 











Figura 12.1 Le prime dieci lettere dell'alfabeto Shaviano. 
Regex: 

\x41 
Risultato: 


Abbiamo imparato a usare \x, poco cambierebbe con \u e 
\U. Anche loro sono seguiti da cifre 
(rispettivamente 4 e 8). 


NOTA Regex Coach supporta \x° ma non \uw°. Se avessimo a disposizione un motore diverso che supportasse 
quest'ultimo, al posto della regex \x41" avremmo potuto indifferentemente usare anche ‘\u0041 ”. 


In questo momento forse può sfuggirci l'utilità di cercare la ”A” con una regex come “\x41", ma se ci capiterà 
di dover cercare un carattere speciale all'interno di una stringa composta da caratteri binari non leggibili allora 
forse conoscere "\x" ci tornerà comodo. 


Conclusioni 


In questo capitolo abbiamo accennato al concetto di Unicode e di come venga implementato in alcuni 
motori di regex con i comandi “\U" e ‘“\u". 

Analogamente abbiamo visto il comando ‘\x", che ci permette di definire in una regex un carattere tramite 
il suo codice ASCII. 


Capitolo 13 


Guardati intorno: (?!...), (?=...), (?2<...) e (?<=...) 


In questo capitolo affrontiamo probabilmente l'aspetto più esoterico delle regular expression: la loro capacità 
di guardare in avanti o indietro prima di decidere se un'espressione è soddisfatta. 
In realtà la definizione originale in inglese è lookaround: “guardati intorno”. 


Guarda avanti se diverso: (?!...) 


Arrivati a questo punto abbiamo affrontato la maggior parte degli strumenti messi a disposizione delle 
regular expression, ma ancora esistono dei problemi che non saremmo in grado di risolvere. 
Supponiamo, per esempio, di voler sostituire la lettera “c” con la “C” (maiuscola) se e solo se quando non è 


#4 


seguita dalla lettera “h'. 
Potremmo credere che la soluzione sia la regex “c['h]". Effettivamente non siamo del tutto in errore, ma 
purtroppo questa regular expression ha due gravi difetti: 


o se la “c’ non è seguita da nulla non viene soddisfatta; 
° se la “c’ è seguita da un carattere diverso da “h” anche quest'ultimo farà parte della stringa trovata. 


Vediamo entrambi gli errori in questo esempio. 
Testo: 


chiaro: ci sono casi in cui non funziona. 
Finiamo questa frase con la c 


Regex: 
c[*h] 
Risultato: 


chiaro: ci sono casi in cui non funziona. 
Finiamo questa frase con la c 


Regex sostituzione: 
C 
Risultato sostituzione: 


chiaro: C sono Csi in Ci non funziona. 
Finiamo questa frase Cn la c 


Che disastro! La frase ora è praticamente illeggibile e, minore dei mali (ma comunque un errore), non è 
stata sostituita la “c’ finale anche se, a tutti gli effetti, non è seguita da una "h°. 

Se potessimo in qualche modo dire alla nostra regex di guardare avanti senza “consumare” il carattere 
seguente saremmo a cavallo. Naturalmente esiste il comando che fa per noi: "(?!_”. Possiamo vedere come 
funziona nell'esempio seguente. 

Testo: 


chiaro: ci sono casi in cui non funziona. 
Finiamo questa frase con la c 


Regex: 
c(?!h) 
Risultato: 


chiaro: ci sono casi in cui non funziona. 
Finiamo questa frase con la c 


Regex sostituzione: 
C 


Risultato sostituzione: 


chiaro: Ci sono Casi in Cui non funziona. 
Finiamo questa frase Con la C 


Perfetto! Abbiamo sostituito tutte le lettere “c’ tranne la prima, l'unica seguita da una “h°. 


NOTA I comandi di lookaround sono detti a “dimensione zero” perché, pur verificando la corrispondenza con la 
regex, non ‘consumano’ alcuna parte della stringa. Nei capitoli dedicati agli ancoraggi avevamo già introdotto il 
concetto di dimensione zero. 


Nell'esempio precedente abbiamo chiesto alla regex di verificare se la lettera seguente fosse diversa da quella 
specificata. Ovviamente al posto della singola lettera possiamo anche utilizzare un'espressione complessa. 
Testo: 


A+AB+ABC=X 
Regex: 
A(2!BC) 
Risultato: 
A+AB+ABC=X 
Abbiamo trovato tutte le “A” tranne quelle seguite dalla stringa "BC. 


Guarda avanti se uguale: (?=...) 


Come abbiamo appena imparato, il comando ‘"(?! )" ci permette di verificare se il testo che segue è diverso 
dall'espressione data. Esiste anche il comando simmetrico, che controlla se la stringa seguente è uguale 
all'espressione che specifichiamo: ‘(?=...)”. 


NOTA In molti linguaggi il test di uguaglianza è dato dall'operatore ==" e quello di disuguaglianza da "=". In 
questo senso i due comandi che abbiamo appena presentato sono abbastanza mnemonici. 


Un esempio ci sarà utile per scoprire il funzionamento di ‘(?=...)”. 
Testo: 


Io rimarco che mi chiamo marco o mino. 
Regex: 

\bm(?=arcolino) 
Risultato: 

Io rimarco che mi chiamo marco o mino. 
Regex sostituzione: 

M 
Risultato sostituzione: 

Io rimarco che mi chiamo Marco o Mino. 


La regex ha trovato le due “m'’ iniziali di ‘marco’ e “mino” permettendoci di renderle maiuscole. In questo 


caso abbiamo guardato in avanti alla ricerca di una delle due possibili stringhe “arco” e “ino” usando 


l'operatore di alternativa "|". In precedenza abbiamo imparato che le parentesi rappresentano un modo per 


definire una backreference. È importante che ci ricordiamo che le parentesi tonde del comando di lookaround 
non contano come backreference. Per riutilizzare la stringa trovata dal comando ‘(?=...), dobbiamo usare 
un'altra coppia di parentesi per l'espressione e creare una backreference. In questo esempio la stringa cercata 
guardando in avanti viene poi riutilizzata nella sostituzione. 

Testo: 


x44 + x + x6 + xA 
Regex: 

x(?=(\d+)) 
Risultato: 

x44 + x + x6 + XA 
Regex sostituzione: 

y\1% 


Risultato sostituzione: 


Y44*44 + x + y6*6 + xA 


In questo esempio abbiamo cercato tutte le “x” seguite da almeno una cifra li \d° rappresenta una cifra e il 
quantificatore “+° significa “una o più "). Quindi le abbiamo sostituite con una y° e il gruppo di cifre seguente è 
stato moltiplicato per se stesso grazie alla backreference “\1°. 


Guarda indietro: (?<...) e (?<=...) 


Esistono due comandi simmetrici per cercare stringhe che precedono l'espressione che stiamo cercando e 
verificare se sono uguali o diverse da una stringa prefissata. I comandi sono rispettivamente "(?<=...)" e ‘(2<1...)”. 
Dobbiamo fare un discorso diverso per il lookbehind (guarda indietro). La maggior parte dei motori di regex 
non permette di cercare all'indietro qualcosa di diverso da una stringa di lunghezza fissa. Ecco la motivazione: 
il motore farebbe troppa fatica a capire di quanto tornare indietro alla ricerca di una regex complessa, cosa 
invece piuttosto facile con una stringa a lunghezza fissa. Vediamo un paio di esempi per capire come possiamo 
usare queste forme. Nel primo useremo il lookbehind alla ricerca di una stringa uguale a quella specificata. 

Testo: 


Ecco alcuni indirizzi URL: http:http://www.google.it 
http://www.slashdot.org. 
Tutti sono preceduti da http://. 


Regex: 
(?2<=http://M[\w]+[\w.]+[\w]+ 
Risultato: 


Ecco alcuni indirizzi URL: http://www.google.it 
http://www.slashdot.org. 
Tutti sono preceduti da http://. 


NOTA In questo caso siamo riusciti a evidenziare tutti gli URL del testo. Giustamente non abbiamo evidenziato 
il punto che segue il secondo URL e quello che conclude la frase. 


Nel secondo la ricerca sarà di una stringa diversa da quella prefissata. 
Testo: 


Voglio cercare tutte le parole che non finiscono per o. 
Regex: 

\b\w+(?<!0)\b 
Risultato: 

Voglio cercare tutte le parole che non finiscono per o. 


Nel precedente esempio la semplicità e, allo stesso tempo, la potenza delle regular expression sono più 
evidenti. Possiamo provare a immaginare quante righe di codice avremmo dovuto scrivere per realizzare un 
programma che facesse la stessa cosa della semplice regex che abbiamo usato: ‘\b\w+(?<!0)\b." Per sbizzarrirci 
possiamo provare a usare la backreference nello stesso esempio. 

Testo: 


Voglio raddoppiare tutte le parole che non finiscono per o. 
Regex: 

\b(\w+)(?<!0)\b 
Risultato: 

Voglio raddoppiare tutte le parole che non finiscono per o. 
Regex sostituzione: 

\1\1 
Risultato sostituzione: 


Voglio raddoppiare raddoppiare tutte tutte le le 
parole parole che che non non finiscono per per o. 


Conclusioni 


In questo capitolo abbiamo imparato a scrivere una regex che guardi i caratteri che la seguono per 
individuare una corrispondenza con l'espressione che cerchiamo, rispettivamente con ‘(?=...)” e “(_”. Le 
parentesi non costituiscono un riferimento a una backreference, che deve essere dichiarata inserendo 
un'ulteriore coppia di parentesi ‘(?=(...)). Ugualmente possiamo scrivere una regex che guarda i caratteri che la 
precedono con i comandi ‘(?<=...)" e ‘(?<1...). 


Capitolo 14 


Varie: 


\a, \c, \e, \f, \n, \r, \v, \te (?#...) 


Questo capitolo è dedicato a tutti quei comandi che non rientrano nelle categorie che abbiamo esaminato 
finora, anche se non tutti i motori li implementano. 

Si tratta per lo più di classi di caratteri di controllo speciali; infine vedremo come inserire un commento in 
una regex. 


Bell: \a 


È probabile che questo comando non sia più usato nella maggior parte dei motori di regex, visto che 
rappresenta il carattere bell (segnale acustico), usato in passato per far emettere un suono ai videoterminali. 
A ogni modo lo elenchiamo comunque, per completezza. 


NOTA Nel linguaggio di programmazione C il carattere Bell in una stringa è inserito come \a°. La ‘a’ sta 
proprio per alert (allarme) o per audible (udibile). 


Carattere di controllo: \c 


Questo comando ci permette di cercare un carattere di controllo in una stringa. Per esempio il carattere di 
tabulazione è equivalente al carattere di controllo CTRL-I quindi è identificabile in una regex come ‘\ci°. 

Proviamo a cercare con questa sintassi il carattere di tabulazione. 

Testo: 


Nelle parentesi quadre che 
seguono c'è un tab [ ]. 


Regex: 
\ci 
Risultato: 
Nelle parentesi quadre che 


seguono c'è un tab [ ]. 


NOTA Avremmo potuto ottenere lo stesso risultato con ‘\x09° o, come vedremo più avanti, con \t°. 


Carattere di escape: \e 


Il carattere di escape è (tristemente) noto a tutti coloro che hanno dovuto, probabilmente in un sistema 
operativo come MSDOS o Unix, generare in qualche modo del testo da inviare a una stampante. 

Si tratta del carattere esadecimale "1B’ e infatti, nella remotissima ipotesi che ci serva in una regex, 
possiamo usare indifferentemente "\e" o ‘\x1B°. 


Carattere form feed: \f 


Il carattere di form feed (avanzamento pagina) è un altro di quei comandi che permettevano di comandare 
una stampante inviando l'istruzione per saltare alla pagina successiva. 

Il carattere esadecimale corrispondente è “0C” e quindi due istruzioni equivalenti a "\f" possono essere ‘\cc" o 
"\x0C°. 


Caratteri a-capo e ritorno carrello: \n e \r 


Trattiamo insieme i caratteri "\n" e ‘\r° perché se qualcuno di noi ha avuto a che fare con la conversione di 
file di testo fra sistemi Unix e sistemi MSDOS o Microsoft Windows si ricorderà ancora i mal di testa dovuti a 
questa strana coppia. 

Il fatto inspiegabile è che il carattere che indica la fine di una riga in Unix è solamente ‘“\n" (codice 
esadecimale "0A”), mentre in MSDOS o in Microsoft Windows sono invece i due caratteri abbinati "\r"° (codice 
esadecimale “0D’) e “\n" (codice esadecimale "0A). 


NOTA Per mettere ulteriormente alla prova la nostra pazienza, accenniamo anche al fatto che nei vecchissimi e 
sconosciuti sistemi Daisy il codice di fine riga era ottenuto con la sequenza \n\r" e nei computer Commodore e 
Apple II si usava solo ‘\r”. 


Quando trattiamo file di testo di più righe ci conviene senza dubbio utilizzare gli ancoraggi di inizio e fine 
riga "$’ (dollaro) e “*’ (accento circonflesso) ma, se proprio vogliamo farci del male e a patto di conoscere con 
precisione il formato binario del file, possiamo anche usare direttamente “\n" 0 “\r\n®. 

Vediamo un esempio di utilizzo di "\n° per trovare tutte le righe che terminano con un punto. 

Testo: 


Posso usare \n per capire dove 
finisce una riga. 

Ma sarebbe meglio usare 

il $ dollaro. 


Regex: 
\\n 
Risultato: 


Posso usare \n per capire dove 
finisce una riga. 


Ma sarebbe meglio usare 
il $ dollaro. 


Verifichiamo come possiamo ottenere lo stesso risultato, per di più al riparo dal formato binario del testo, 
usando il ‘$’ (dollaro). 
Testo: 


Posso usare \n per capire dove 
finisce una riga. 

Ma sarebbe meglio usare 

il $ dollaro. 


Regex: 
\.$ 
Risultato: 


Posso usare \n per capire dove 
finisce una riga. 

Ma sarebbe meglio usare 

il $ dollaro. 


Caratteri di tabulazione: \v e \t 


Il carattere di tabulazione verticale ‘\v” è un altro di quei caratteri usati molto tempo fa per comandare 
l'avanzamento verticale della carta in una stampante. Il carattere esadecimale corrispondente è “0B” e quindi 
possiamo usare ‘“\cb” o ‘\x0B" per ottenere lo stesso risultato. 

Il carattere di tabulazione orizzontale “\t" è invece molto più comune anche al giorno d'oggi. Molti file di 
testo ottenuti con l'esportazione da fogli elettronici contengono dati separati dal cosiddetto tab. Il carattere 
esadecimale corrispondente è “09” e quindi possiamo usare ‘\ci” o ‘\x0B" al posto di ‘\t°. 

Rivediamo per conferma l'esempio in cui avevamo utilizzato ‘\ci°. 

Testo: 


Nelle parentesi quadre che 
seguono c'è un tab [ ]. 


Regex: 
\t 
Risultato: 


Nelle parentesi quadre che 
seguono c'è un tab [ ]. 


Commento: (?#...) 


Tutti dovremmo conoscere l'importanza dei commenti all'interno di un codice sorgente. Senza i commenti, 
chiunque fosse costretto a interpretare un frammento di codice sorgente che non ha scritto si troverebbe di 
fronte ad un'impresa non indifferente. A dire la verità, è probabile che, in presenza di codice non 
commentato, a distanza di qualche mese anche l'autore incontrerebbe le stesse difficoltà. 

Una regex in linea teorica non dovrebbe essere così complessa da non essere interpretabile direttamente, 
ma può essere utile inserire piccoli commenti al suo interno per facilitarne l'interpretazione. 

Per esempio, vediamo una regex abbastanza complessa che ricerca delle date all'interno di un testo. 

Testo: 


Sono nato il 23/09/1964 o il 23-9-64. 
Se dico 23/9 non basta. 

Se dico 23/09/1899 nessuno ci crede. 
Se dico 31/02/1964 imbroglio la regex. 


Regex: 


\b(?#giorno)(0?[1-9]![12][0-9]}3[01])[- 
/](?#mese)(0?[1-9]!1[012])[-/](?#anno)(19!20)?\d\d\b 


Risultato: 


Sono nato il 23/09/1964 o il 23-9-64. 
Se dico 23/9 non basta. 

Se dico 23/09/1899 nessuno ci crede. 
Se dico 31/02/1964 imbroglio la regex. 


NOTA Nell'esempio la regular expression è molto lunga e quindi è spezzata su più righe per motivi di 
impaginazione. In realtà dobbiamo digitarla senza mai andare a capo. 


Abbiamo volutamente inserito una data errata (il 31 febbraio) per ricordare che una regex ci può facilitare 
molto la ricerca di stringhe che soddisfino certe caratteristiche, ma non può sostituirsi alla programmazione 
classica. 


Conclusioni 


In questo capitolo abbiamo elencato tutti i comandi particolari, che non rientravano nelle categorie definite 
finora. 
Nella maggior parte dei casi si tratta di comandi che vengono usati molto raramente. 


Capitolo 15 


I modificatori: /i, /s e /m 


L'ultimo argomento che affrontiamo prima di passare a esaminare l'uso delle regex nei vari linguaggi sono i 
modificatori. 

Questi cosiddetti flag ci permettono di cambiare il comportamento del motore delle regex che stiamo 
usando. 

Normalmente possiamo usare questi flag anche per una parte della regex. 


Maiuscole e minuscole uguali: /i 


Per cercare in un testo la presenza del tag “<TITLE>" dovremmo utilizzare un'espressione piuttosto 
elaborata, come la seguente. 
Testo: 


Dobbiamo trovare < TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


Regex: 
<tMGD[tT][IL][eE]> 
Risultato: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 
Sarebbe molto più comodo se potessimo dire al nostro motore di ignorare la differenza tra maiuscole e 


minuscole. 
Questo modo esiste: basta usare il modificatore ‘/i”. 


NOTA Prestiamo attenzione alla barra: non è il backslash ma è la barra normale. Questo indica che il 
modificatore normalmente non viene inserito direttamente nella regex. Per esempio nella Figura 15.1 vediamo 
come è attivato in Regex Coach. 


Vediamo come la stessa regex può essere scritta molto più semplicemente attivando il modificatore ‘/i”. 
Testo: 


Dobbiamo trovare < TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


Regex: 
<TITLE> 
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Figura15.1 Il modificatore /i attivato in Regex Coach. 
Modificatore: 

li 
Risultato: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


In realtà possiamo attivare il modificatore anche specificandolo all'interno della regex con il comando ‘(?i)”. 
Testo: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


Regex: 
(?i)<TITLE> 
Risultato: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TITle> e <tITLE>. 


Per disattivarlo, basta usare ‘(?-i)”. 
Testo: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


Regex: 
(2i)<TIT(?-i)LE> 
Risultato: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


NOTA Notiamo come in questo ultimo esempio abbiamo riattivato il controllo sulle maiuscole e minuscole 
prima delle ultime due lettere "LE di “<TITLE>”. Proprio per questo motivo due delle occorrenze non sono state 
evidenziate. 


E forse superfluo dire che nei due esempi precedenti le parentesi tonde non causano alcuna backreference. 


Singola riga: /s 


Il modificatore "/s" indica al motore di regex di trattare il testo come un'unica riga, anche in presenza di più 


” 


righe. In questo caso il carattere jolly ".’ (punto) è soddisfatto anche dal codice di fine riga. 
Testo: 


Vado a capo ora 
e ricomincio qui. 

Regex: 
(?s)ora.e 


Risultato: 


Vado a capo ora 
e ricomincio qui. 


Abbiamo visto come il jolly sia stato soddisfatto dal carattere di “acapo’ inserito appositamente tra le due 
parole “ora” ed e”. 


NOTA In Regex Coach la modalità singola riga è attivabile come indicato nella Figura 15.2. Il riquadro con la m 
subito a sinistra della s indicata dalla freccia attiva la modalità multi-riga, spiegata nel prossimo paragrafo. 


Multi-riga: /m 
L'ultimo modificatore che esaminiamo è “/m° che attiva la modalità multi-riga. 


In questa modalità gli ancoraggi “*’ (accento circonflesso) e “$" sono ancorati all'inizio e alla fine di ogni 
riga, piuttosto che all'inizio e alla fine di tutto il testo. 


NOTA Nel capitolo dedicato a questi due ancoraggi avevamo infatti segnalato di attivare questa modalità. 


G ine Regex Coach ak 
Fia Agoscro Hab 
Beguer eopression: 


Di On Gi Cs Ha 


Vado a capo pra 
e riconincio qui. 


Hatch hom12 1017 

Contro | hfo | Tresa |Fepksce] So 
Hiohicht (grep backginund 

® celecîin 


O nothing 


Scanfrom 0 Start ot sinng. 0 Erd ol stra 








Figura 15.2 Il modificatore /s attivato in Regex Coach. 


In pratica, se non attiviamo questa modalità, l'ancoraggio “** corrisponde a “\A” e l'ancoraggio "$” 
corrisponde a ‘\Z. 


Conclusioni 


In questo capitolo abbiamo visto come usare i modificatori per modificare il comportamento del motore di 
regex che stiamo usando: ‘/i” per evitare che la ricerca distingua fra lettere maiuscole e minuscole, “/s° e “/m° 
per considerare il testo rispettivamente su una sola riga o su più righe. 

I modificatori possono anche essere attivati o disattivati solo per una parte della regex. 

Per esempio possiamo rendere una parte di regex indipendente dalle lettere maiuscole o minuscole, con il 
comando esteso ‘(?i)”. 

Per riattivare il suddetto controllo dobbiamo invece usare ‘(?-i) 


” 


Capitolo 16 


Regex in Python 


Con questo capitolo iniziamo a vedere l'uso delle regular expression nei linguaggi più diffusi. 
Il primo linguaggio che affrontiamo è Python. 


Python 


La prima domanda delle FAQ (Frequently Asked Question: le domande più frequenti) sul sito ufficiale di 
Python (http://www.python.org) è la seguente: “Che cos'è Python?”. 

La risposta è: “Python è un linguaggio di programmazione interpretato, interattivo e orientato agli oggetti. 
Incorpora al proprio interno moduli, eccezioni, tipizzazione dinamica, tipi di dati di altissimo livello e classi. 
Python combina un'eccezionale potenza con una sintassi estremamente chiara. Ha interfacce verso molte 
chiamate e di sistema, oltre che verso diversi ambienti grafici, ed è estendibile in C e in C++. Inoltre può 
essere usato come linguaggio di configurazione e di estensione per le applicazioni che richiedono 
un'interfaccia programmabile. Infine Python è portatile: può girare su molte varianti di Unix, su Mac e su PC 
con MS-DOS, Windows, Windows NT e 05/2.” 

A chi dobbiamo una meraviglia del genere? A un geniale signore olandese che risponde al nome di Guido 
Van Rossum. Curiosamente Guido non è la traduzione italiana del suo nome, è proprio il suo nome originale, 
in olandese. 

Guido, nel lontano Natale del 1989, invece di trascorrere le vacanze a decorare l'albero, decise di scrivere un 
linguaggio che correggesse la maggior parte, se non tutti, i difetti che secondo lui erano presenti negli altri 
linguaggi. 

Per nostra fortuna Guido Van Rossum era, ed è tuttora, un grandissimo esperto di linguaggi di 
programmazione e questo ha fatto sì che fin da subito la sua creatura avesse un notevole successo, dapprima 
fra i colleghi del centro di ricerca presso il quale lavorava in quel periodo e poi, dopo la pubblicazione su 
USENET nel febbraio del 1991, in tutto il mondo. 

Python può essere utilizzato per applicazioni standalone (che girano per un singolo utente su un solo 
computer), per applicazioni tradizionali client-server, per applicazioni web e anche per realizzare giochi; 
inoltre può essere usato facilmente come linguaggio di scripting. 

Esistono perfino due ottimi framework web scritti in Python: Django (http://www.djangoproject.com) e Zope 
(http://www.zope.org). 

Google, che non ha bisogno di presentazioni, utilizza pesantemente Python. 

Insomma, non esistono limitazioni all'uso di questo linguaggio. 


Come usare le regex in Python 


In Python esiste un modulo (una libreria) dedicato all'implementazione delle regular expression, disponibile 
all'interno del linguaggio. 

Le librerie possono essere importate con l'istruzione import, per cui, per avere a disposizione il motore delle 
regex di Python, è sufficiente che nel sorgente digitiamo la seguente riga: 


import re 


Da questo momento in poi possiamo usare nel nostro sorgente tutte le istruzioni e possiamo creare gli 
oggetti che riguardano le regex. 
Vediamo come cercare una stringa. 


NOTA Si tratta del problema che abbiamo proposto alla fine del primo capitolo: trovare all'interno di una frase 
tutte le parole di otto lettere che contengono la sottostringa ‘tex’, ma non all'inizio e nemmeno alla fine di essa. 


>>> import re 

>>> c = re.compile(r"\b(?=\w{8}\b)\w{1,4}tex\w*") 
>>> s = "texwille ritexwil ritexto 12tex345" 

>>> c.findall(s) 

['ritexwil', '12tex345'] 


>>> 


NOTA La stringa >>> è il prompt dei comandi di Python. Essendo un linguaggio interpretato non richiede il 
normale (e noioso) processo di compilazione per provare interattivamente piccole porzioni di codice. Nel prossimo 
paragrafo vedremo il significato della "v° che precede la stringa della regex. 


Vediamo ora come modificare una stringa: 


>>> import re 

>>> c = re.compile(r"(bianco!rosso)") 
>>> c.sub(r"colore \1", "maglione rosso") 
‘maglione colore rosso' 


>>> 


NOTA Per richiamare la stringa relativa al colore, abbiamo usato la backreference. 


Per utilizzare i modificatori in Python è sufficiente usare in fase di creazione della regex una delle seguenti 
costanti. 


re DOTALL o re.S | Modalità mono-riga. 


TRISNORECASE: Noi distinguere fra le lettere maiuscole e minuscole. 
RO Modalità locale per effettuare ricerche che tengono conto della nazionalità corrente del 
sistema operativo. 


re.MULTILINE 0 | Modalità multi-riga. 


re.VERBOSE o re.X | Modalità verbose (prolissa) per scrivere regex più chiare e commentate. 


Vediamo come si può rendere case insensitive il precedente esempio: 





>>> import re 

>>> c = re.compile(r"(biancolrosso)", re.) 
>>> c.sub(r"colore \1", "maglione BIANCO") 
‘maglione colore BIANCO' 


>>> 


Particolarità del motore regex Python 


Il motore di regex di Python è stato il primo a offrire la funzionalità dei gruppi con nome. Esaminiamo la 
sintassi di questo comando: "(?P<...>...)". In questo modo è possibile dare il nome a un gruppo da utilizzare poi 
come backreference. Per vedere l'utilità di questa innovazione osserviamo due frammenti di codice che 
svolgono la stessa operazione (invertono il nome e il cognome in una lista di valori separati da una virgola). 

Esempio di gruppi senza nomi: 


>>> import re 
>>> a = """Rossi, Mario 
Bianchi, Pietro 
Verdi, Luigi""" 
>>> c = re.compile("*([*,]+);([*,]+)$", re.M) 
>>> print c.sub(r"\2 \1", a) 
Mario Rossi 
Pietro Bianchi 
Luigi Verdi 
>>> 
Esempio di gruppi con nomi: 
>>> import re 
>>> a = """Rossi, Mario 
Bianchi, Pietro 
Verdi, Luigi""" 
>>> C=|\ 
re.compile("*(?P<cognome>[*,]+),(?P<nome>[*,]+)$", 
re.M) 
>>> print c.sub(r"\g<nome> \g<cognome>", a) 
Mario Rossi 


Pietro Bianchi 
Luigi Verdi 


>>> 


Per maggior chiarezza abbiamo evidenziato le parti di codice differenti. È facile comprendere come, 
soprattutto a distanza di qualche tempo, la regex "\g<nome> \g<cognome>” sia molto più comprensibile rispetto 
a "\2 \1°. Prova ne è che molti altri motori hanno ormai adottato questa estensione di Python. 

Come abbiamo visto in precedenza (anche in questi ultimi due esempi), spesso quando si utilizzano le regex 
è necessario utilizzare il backslash. Ma spesso il backslash ha un significato particolare nella gestione delle 
stringhe nei linguaggi di programmazione e, se questo accade, siamo costretti a raddoppiare ogni sua 
occorrenza. Nel caso di una regex che deve cercare proprio questo carattere speciale dovremmo scriverla in 
questo modo: ‘\\\\" (sì, ripetuto ben quattro volte). Anche nelle stringhe di Python il backslash ha un 
significato particolare ma, per fortuna, esiste il modo di evitare questa inflazione di caratteri speciali. In questo 
linguaggio, le due stringhe seguenti sono equivalenti: 


>>> "\2\\1" 
>>> r"\2 \1" 


Quella piccola “r° sta per raw (non elaborata) e indica a Python di non considerare ‘speciale’ il backslash. 
Con le stringhe raw non possiamo più usare il delimitatore di stringa all'interno della stringa, perché non 
abbiamo più modo di renderlo normale con il backslash. In questo caso possiamo usare il triplo doppio apice. 
La stringa seguente è del tutto lecita in Python (contiene un backslash, un doppio apice, un singolo apice e 
persino un carattere di “a-capo’): 
>>> S= r" È su i 


mn 


NOTA Per approfondire questo e altri aspetti delle regex in Python è possibile visitare la documentazione 
ufficiale di Python per il modulo: http://docs.python.org/lib/module-re.html. 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression nel linguaggio di programmazione 
Python. 


Capitolo 17 


Regex in Ruby 


In questo capitolo vedremo come utilizzare le regular expression nel linguaggio di programmazione Ruby. 


Ruby 


Ruby in inglese significa rubino. Questo nome lascia intuire quali siano state le intenzioni del suo ideatore, 
Yukihiro “matz’ Matsumoto, quando decise di concepirlo e realizzarlo nel 1993 per poi renderlo pubblico nel 
dicembre del 1994. 

Yukihiro ha preso il meglio dai linguaggi di cui era esperto nonché appassionato, tra cui Perl, Smalltalk, 
Eiffel, Ada e Lisp, per creare il proprio linguaggio di programmazione ideale. 


NOTA In realtà dietro il nome Ruby c'è anche un sottile gioco di parole con Perl (che in origine era Pearl) visto 
che entrambi sono nomi di pietre preziose. 


Come abbiamo fatto per Python, ecco come viene definito Ruby nelle FAQ (Frequently Asked Question, le 
domande più frequenti): “Ruby è un semplice e potente linguaggio di programmazione orientato agli oggetti. È 
ottimo per elaborare i testi, come Perl, e ogni cosa è un oggetto, come in Smalltalk. Offre blocchi di istruzioni, 
iteratori, meta-classi e molti altri costrutti interessanti. Possiamo usare Ruby per scrivere server, sperimentare 
con i prototipi e per qualunque compito riguardi la programmazione. Come linguaggio orientato agli oggetti, 
Ruby è scalabile. Le caratteristiche di Ruby sono: 


CI una sintassi semplice; 

° le tipiche caratteristiche dei linguaggi orientati agli oggetti (classi, metodi, oggetti e così via); 
C) varie caratteristiche speciali come Mix-ins, metodi singleton, ridenominazione e altri ancora; 
° l'overloading degli operatori; 

CI la gestione delle eccezioni; 

CI gli iteratori e la closure; 

o la garbage collection; 

o il caricamento dinamico (a seconda dell'architettura); 


CI un'elevata trasportabilità (gira su diversi Unix, Windows, DOS, OS X, 05/2, Amiga e così via)”. 


Ci pare incredibile che Ruby sia tutto questo? È normale che un oste dica sempre che il proprio vino sia il 
migliore, ma in effetti Ruby è, insieme a Python, uno dei migliori linguaggi attualmente in circolazione. Data 
la produttività che deriva dall'uso di Ruby e Python, è quasi incomprensibile che questi linguaggi di 
programmazione non vengano adottati più spesso per la realizzazione di nuovi progetti. Pensiamoci bene la 
prossima volta che avremo l'occasione di studiare un nuovo linguaggio di programmazione. 

La documentazione nel sito ufficiale di Ruby è all'indirizzo: 


http://www.ruby-lang.org/en/documentation/ 


Come usare le regex in Ruby 


In Ruby le regular expression sono una caratteristica propria del linguaggio, ovvero non fanno parte di una 
libreria o di un modulo da importare. Vediamo come cercare una stringa. 


NOTA Si tratta del problema che abbiamo proposto alla fine del primo capitolo: trovare all'interno di una frase 
tutte le parole di otto lettere che contengono la sottostringa “tex°, ma non all'inizio e nemmeno alla fine di essa. 


irb(main):001:0> s = "texwille ritexwil ritexto + 
12tex345" 

=> "texwille ritexwil ritexto 12tex345" 

irb(main):002:0> s.scan(/\b(?=\w{8}\b)\w{1,4}tex\ & 

w*/) 


=> ['ritexwil", "12tex345"] 
irb(main):003:0> 


NOTA La stringa ‘irb(main):001:0>” è il prompt che compare quando utilizziamo Ruby interattivamente. Anche 
in Ruby, come in Python e in tutti gli altri linguaggi interpretati, possiamo provare interattivamente piccoli 
frammenti di codice. La stringa "=>’ precede i valori restituiti dall'interprete. Il carattere +/ è esclusivamente 
un'indicazione tipografica per segnalare che la riga va a capo solo per esigenze di stampa, anche se in realtà si 
tratta di una sola riga. 


Abbiamo usato il metodo ‘scan’ della stringa “s’ per recuperare in un array tutte le occorrenze individuate 
(nell'esempio sono due). 
Vediamo ora come modificare una stringa: 


irb(main):001:0> s = "maglione rosso" 
=> "maglione rosso" 

irb(main):002:0> s.sub(/(bianco!rosso)/, & 
"colore \\0") 

=> "maglione colore rosso" 
irb(main):003:0> 


NOTA Abbiamo usato la backreference per richiamare la stringa relativa al colore. 


In Ruby possiamo utilizzare i modificatori semplicemente aggiungendo nella regex il modificatore dopo 
l'ultima barra semplice ‘/°. 
Possono essere impiegati i seguenti modificatori. 


Non distinguere fra le lettere maiuscole e minuscole. 


Sostituzione singola (normalmente le sostituzioni sono sempre globali) 








Il carattere speciale punto ‘.° corrisponde a ogni carattere, anche il ritorno a-capo (gli ancoraggi "*” e "$” 
rispettano sempre e comunque l'inizio e la fine di una riga). 


Vediamo come si può rendere case insensitive il precedente esempio: 


irb(main):001:0> s = "maglione BIANCO" 
=> "maglione BIANCO" 

irb(main):002:0> s.sub(/(biancolrosso)/i, +! 
"colore \\0") 

=> "maglione colore BIANCO" 
irb(main):003:0> 


Particolarità del motore regex Ruby 


Il motore di regex di Ruby fa parte della sintassi del linguaggio. Possiamo considerare questo fatto come un 
indice della capacità del suo ideatore Yukihiro “matz’ Matsumoto, oltre che un omaggio all'utilità sempreverde 
delle vetuste regex. 

Nel paragrafo precedente abbiamo già visto che i modificatori sono inseriti direttamente nella regex e che la 
regex stessa è delimitata dalla barra semplice “/’ (slash). Questa caratteristica fa sì che, se all'interno della 
nostra regex dobbiamo usare la barra “/”, dobbiamo farla precedere dal backslash ‘\”. 

Vediamo come fare nell'esempio seguente: 


irb(main):001:0> s = "30 / 10 = 3" 
=> "30/10=3" 

irb(main):002:0> s.sub(/V/, "diviso") 
=> "30 diviso 10 = 3" 
irb(main):003:0> 


La regex "/V/" è delimitata dalle due barre semplici iniziale e finale; le due barre contengono a loro volta due 
caratteri: “\V”. Il primo è il backslash che rende normale il secondo carattere (speciale), la barra semplice ‘/°. 

In Ruby esiste inoltre un particolare operatore che ci permette di controllare se una stringa corrisponde a 
una regex. L'operatore è "=-”. 

Riproviamo il primo esempio usando questo operatore: 


irb(main):001:0> s = "texwille ritexwil ritexto — 
12tex345" 
=> "texwille ritexwil ritexto 12tex345" 


irb(main):002:0> s =- /\b(?=\w{8}\b)\w{1,4}tex\w*/ 


L'operatore "=-’ ha restituito il valore “9° che indica che nella nostra stringa la regular expression è stata 
individuata nella nona posizione. 

Abbiamo già visto il metodo standard ‘scan’ in un esempio precedente. Esiste però un altro metodo standard 
delle stringhe che si comporta un po' diversamente: ‘split’. Quest'ultimo è complementare a “scan”, tant'è vero 
che restituisce un array contenente solo le parti di stringa non individuate dalla regex. 

Vediamo per l'ennesima volta l'esempio iniziale usando però ‘split’ al posto di scan’: 


irb(main):001:0> s = "texwille ritexwil ritexto + 
12tex345" 
=> "texwille ritexwil ritexto 12tex345" 
irb(main):002:0> s.split(/\b(?=\w{8}\b)\wf1,4}tex\ 
w*/) 
=> ["texwille ", " ritexto "] 
irb(main):003:0> 
Osserviamo gli spazi ai bordi delle due stringhe trovate: sono presenti nel testo iniziale e, non essendo 
individuati dalla regex, vengono mantenuti nell'array restituito. 


NOTA Per approfondire le caratteristiche delle regex in Ruby possiamo esaminare la documentazione ufficiale: 
http://www.rubylang.org/en/documentation/. 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression nel linguaggio di programmazione Ruby. 


Capitolo 18 


Regex in Perl 


In questo capitolo esamineremo l'uso delle regular expression in Perl. 


Perl 


Perl è un linguaggio di programmazione dinamico e in questo senso è simile a Python e Ruby; per un certo 
verso è il loro antenato, visto che è nato dalla mente di Larry Wall che lo rese pubblico alla fine del 1987. 

Il nome inizialmente era Pearl (perla) e sembra che Larry abbia preso spunto dalla parabola della perla nel 
vangelo di Matteo, scegliendo quindi un nome breve che avesse una connotazione positiva. Poco prima del 
rilascio ufficiale nel dicembre del 1997, Larry scopri che esisteva già un linguaggio di programmazione 
chiamato Pearl (oggi molto meno diffuso di Perl) e quindi cambiò nome alla sua creatura, togliendo una lettera 
e accorciandolo ulteriormente. 

Dal nome Perl col tempo è poi nato il ’bacronimo” Practical Estracting Report Language (linguaggio pratico 
per l'estrazione di report). 


NOTA ’Bacronimo” è un neologismo che abbiamo testé coniato per il termine inglese backronym che a sua 
volta è un insieme di back (all'indietro) e acronym (acronimo). In pratica il ’bacronimo’ si riferisce alle 
situazioni in cui prima nasce il nome e solo in seguito vengono trovate delle parole le cui iniziali si adattano al 
novello acronimo. 


Perl è nato con lo scopo di essere un linguaggio per la manipolazione veloce e pratica di testi ma in seguito è 
stato usato (e lo è tutt'oggi) per un'ampia varietà di compiti, come scrivere programmi per l'amministrazione 
di sistemi, applicativi web, programmi con interfacce grafiche e così via. 

Si può descrivere in una frase il motivo per il quale è stato realizzato Perl: è stato creato in un momento in 
cui i computer cominciavano a costare meno della forza lavoro umana e quindi i linguaggi di programmazione 
tradizionali, come il Fortran, il Cobol e il C, che ottimizzavano l'uso dell'hardware non erano altrettanto 
efficienti nell'ottimizzazione delle risorse umane. Perl invece era perfetto per questo compito, perché riduceva 
la fatica del programmatore a spese di maggiori risorse computazionali e di memoria. 

Per questo motivo, Perl non sposa nessun paradigma di programmazione ma, nella versione attuale, 
permette di scegliere tra un approccio procedurale, ad oggetti o funzionale. 

Le specifiche del linguaggio non sono mai state scritte e l'interprete stesso costituisce a tutti gli effetti lo 
standard di Perl. 

La versione attuale stabile e distribuita è la 5.8 anche se la 5.0 ha visto la luce nel lontano 1994. Dal 2000 è in 
fase di progettazione e realizzazione la versione 6.0. 

Perl è disponibile per tutte le principali piattaforme e il sito ufficiale dal quale possiamo scaricare sorgenti o 
programmi di installazione e leggere tutta la documentazione che ci serve è: 


http://www.perl.org 


Come usare le regex in Perl 


Come in Ruby, anche in Perl] le espressioni regolari costituiscono parte integrante del linguaggio (per la 
verità questa è una delle caratteristiche che Ruby ha mutuato dal suo progenitore). 
Vediamo come cercare una stringa in Perl. 


NOTA Si tratta del problema che abbiamo proposto alla fine del primo capitolo: trovare all'interno di una frase 
tutte le parole di otto lettere che contengono la sottostringa “tex°, ma non all'inizio e nemmeno alla fine di essa. 


$s = "texwille ritexwil ritexto 12tex345" ; 

while ($s => m/\b(?=\w{8}\b)\w{1,4}tex\w*/g) { 
print "$&\n"; 

} 


Se eseguiamo il sorgente precedente con l'interprete Perl, otteniamo il seguente output: 


ritexwil 
12tex345 


NOTA Il segno del dollaro in Perl indica una variabile di tipo testuale ed è obbligatorio in presenza di tale tipo di 
dati. 


Il comando che ci permette di cercare una stringa è la “m’ (da match, individuare la corrispondenza) subito 
dopo l'operatore “=-”. La variabile che indica la corrispondenza trovata è "$&°. 
Vediamo ora come modificare una stringa: $s = "maglione rosso" ; 


$s = "maglione rosso" ; 
$s =- s/(bianco!rosso)/colore $1/ ; 
print $s 


Ecco il risultato che otteniamo eseguendo il codice sorgente precedente: 
maglione colore rosso 
NOTA Abbiamo usato la backreference per richiamare la stringa relativa al colore. In Perl le backreference sono 
ottenute con “$1°, “$2° e così via e non con il backslash come abbiamo visto fino a questo momento. 


In questo caso abbiamo fatto uso del comando ‘s’ per sostituire la corrispondenza trovata tramite la regex. 
Per utilizzare i modificatori con Perl basta aggiungere dopo la regex il parametro desiderato fra i seguenti. 


/g Trova o sostituisci tutte le occorrenze. 
i Non distinguere fra le lettere maiuscole e minuscole. 
Modalità multi-riga. 





Ottimizza i pattern, compilandoli una sola volta. 
Attiva modalità estesa di regex. 


Vediamo come si può rendere case insensitive il precedente esempio: 


$s = "maglione BIANCO" ; 
$s =- s/(bianco!rosso)/colore $1/i ; 
print $s 


Eseguiamo il codice e otteniamo il seguente output: 
maglione colore BIANCO 


Particolarità del motore regex Perl 


Nel paragrafo precedente abbiamo avuto modo di osservare che i modificatori vengono inseriti direttamente 
nella regex, a sua volta delimitata dalla barra semplice “/’ (slash). 


NOTA Anche questo costituisce un carattere che Ruby ha ereditato da Perl (insieme a molti altri, come per 
esempio l'operatore "=-). 
Se dobbiamo usare la barra ‘/’ all'interno della nostra regex, dobbiamo anteporle il backslash "\" oppure 
possiamo usare un altro carattere speciale per delimitare la nostra regex. 
È quindi valido questo esempio: 
$s="30/10=3"; 
$s =- s/V/diviso/ ; 
print $s 
Ma lo è anche quest'altro: 
$s="30/10=3"; 
$s =- si/idiviso] ; 
print $s 
Entrambi infatti producono il seguente risultato: 
30 diviso 10 = 3 


Un'altra particolarità delle regex di Perl che abbiamo già visto in uno degli esempi del paragrafo precedente 
è rappresentata dalle variabili di backreference. In Perl si chiamano ‘$1”, ‘$2° e così via. 

In realtà esistono molte altre variabili e funzioni proprie di Perl e che riguardano le regex. Queste sono le 
principali. 
$1,$2... | Variabili di backreference. 








Variabile per l'ultima backreference. 


Variabile per l'intera corrispondenza individuata. 


S 
st 


pos() |Funzione array con le posizioni della stringa in cui è stata trovata l'n-esima corrispondenza. 


& 





Modifichiamo il primo esempio per vedere all'opera queste variabili: 


$s = "texwille ritexwil ritexto 12tex345" ; 
while ($s => m/\b(?=\w{8}\b)\w{1,4}tex\w*/g) { 


print "\@- @- \n"; 

print "\$-[0] $-[0] \n"; 
print "\$' $' \n"; 

print "\$° $° \n"; 

print pos($s) . " pos(\$s)\n"; 


NOTA Il punto in Perl è il carattere che consente di concatenare le diverse parti di un output con il comando 
“print. 
L'esecuzione del precedente script produce questo output: 


@- 9 

$-[0] 9 

$'ritexto 12tex345 

$° texwille 

17. pos($s) 

@- 26 

$-[0] 26 

$' 

$° texwille ritexwil ritexto 
3 


4  pos($s) 


NOTA Per approfondire gli aspetti delle regex in Perl possiamo trovare la documentazione ufficiale al seguente 
indirizzo: http://www.perl.org/docs.html. 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression con il linguaggio di programmazione 
Perl. 


Capitolo 19 


Regex in PHP 


In questo capitolo esamineremo l'uso delle regular expression nel linguaggio di programmazione PHP. 


PHP 


Il termine PHP è uno dei tanti acronimi ricorsivi tanto cari alla cultura hacker. Il suo significato è “PHP 
hypertext preprocessor” (preprocessore di ipertesti PHP) La prima “P’ significa nuovamente PHP; da qui la 
ricorsività dell'acronimo. A essere sinceri, inizialmente l'acronimo significava Personal Home Page (pagina 
iniziale personale) ma ci piace molto di più la versione ricorsiva. 


NOTA Nel mondo di Internet, “hacker” non è assolutamente un termine dispregiativo. È stato il mondo dei 
media tradizionali, i giornali e la televisione, ad affibbiargli una connotazione negativa. Un “hacker” è un grande 
esperto di computer o anche qualcuno che modifica e ripara apparecchiature elettroniche per migliorarne le 
funzionalità. Il termine corretto per chi effettua attività più o meno illegali è “cracker (colui che viola) o “black 
hat” (cappello nero). 


La definizione di PHP presente sul sito ufficiale http://www.php.net/ è la seguente. 

“PHP è un diffuso linguaggio di scripting per utilizzo generale, particolarmente adatto per lo sviluppo di 
applicativi Web e che può essere inserito all'interno del codice HTML.” 

La descrizione ufficiale sembra limitare il campo d'azione di PHP principalmente al mondo dei server web, 
ma in realtà questo linguaggio viene frequentemente utilizzato anche per realizzare applicativi eseguibili dalla 
riga di comando o veri e propri programmi client-side con un'interfaccia grafica, normalmente ottenuta 
tramite librerie grafiche, come per esempio GTK+. 

PHP fu prodotto come una serie di eseguibili CGI (common gateway interface, interfaccia comune di 
ingresso) scritti nel 1994 in linguaggio C dal danese Rasmus Lerdorf per sostituire un insieme di script in Perl 
che usava per la sua pagina personale. Visto che piano piano l'insieme di eseguibili prese una discreta forma, 
nel giugno del 1995 Rasmus decise di renderlo pubblico. In seguito, nel 1997, due programmatori israeliani, 
Zeev Suraski e Andi Gutmans, riscrissero il parser, gettando le basi per quello che in seguito fu chiamato PHP 
3 (furono proprio loro a coniare l'acronimo ricorsivo). 

Nel maggio del 2000 nacque PHP 4 e infine (per ora) nel luglio 2004 vide la luce PHP 5 che è attualmente 
l'ultima versione “maggiore” disponibile (la versione “minore” 5.2.1 è stata rilasciata nel febbraio 2007). 


Come usare le regex in PHP 


Le regex in PHP sono disponibili tramite due gruppi di funzioni: quelle che iniziano per “ereg_” e quelle che 
iniziano per ‘preg_”. 

Il primo gruppo è quello più “antico” e non offre molte delle funzionalità più avanzate delle regular 
expression, mentre il secondo si appoggia alla libreria open-source PCRE che è inclusa nelle ultime versioni di 
PHP. Negli esempi utilizzeremo le funzioni avanzate PCRE. 


NOTA PCRE è l'acronimo di “Perl Compatible Regular Expressions” (espressioni regolari compatibili con Perl). 
Moltissime implementazioni non sono altro che wrapper (letteralmente involucri’) per questa ottima libreria 
scritta in linguaggio C. Il sito dal quale possiamo scaricarla e leggere un po' di documentazione è 
http://www.pcre.org/. 


Vediamo come cercare una stringa in PHP utilizzando la funzione ‘“preg_match”: 


NOTA Si tratta del problema che abbiamo proposto alla fine del primo capitolo: trovare all'interno di una frase 
tutte le parole di otto lettere che contengono la sottostringa “tex’, ma non all'inizio e nemmeno alla fine di essa. 


< ?php 

$s = "texwille ritexwil ritexto 12tex345"; 
>$p = '/\b(?=\w{8}\b)\w{1,4}tex\w*/"; 
preg_match($p, $s, $trovate); 
print_r($trovate); 

> 


NOTA PHP è un preprocessore di ipertesti e quindi, normalmente, il suo codice viene inserito all'interno di codice 
sorgente HTML. Il tag che lo racchiude è “<?php ... ?>° Per questo motivo, anche se eseguiamo uno script PHP 
dalla riga di comando dobbiamo inserire questi tag. La funzione ‘print_r° non fa altro che visualizzare in un 
formato facilmente leggibile i parametri passati. 


Eseguendo il sorgente precedente con l'interprete PHP otteniamo questo risultato: 


Array 
( 
[0] => ritexwil 


) 


La funzione “preg_match” trova una sola occorrenza, la prima. Se vogliamo trovarle tutte dobbiamo usare 
“preg_match_all’: 
<?php 
$s = "texwille ritexwil ritexto 12tex345"; 
$p = '/\b(?=\w{8}\b)\w{1,4}tex\w*/"; 
preg_match_all($p, $s, $trovate); 


print_r($trovate); 
"> 


Il risultato in questo caso cambia e include tutte le occorrenze: 


Array 


( 
[0] => Array 


[0] => ritexwil 
[1] => 12tex345 
) 


Vediamo ora come modificare una stringa utilizzando la funzione “preg_replace”: 
<?php 
$s = "maglione rosso"; 
$p = "/(bianco!rosso)/"; 
$r = "colore \\1"; 


echo preg_replace($p, $r, $s); 
?> 


NOTA Abbiamo usato la backreference con ‘*\\1° per richiamare la stringa relativa al colore. Il doppio backslash 
è dovuto alla usuale motivazione che in molti linguaggi, PHP compreso, il singolo backslash è un carattere 
speciale per la gestione delle stringhe. 


Ecco l'output dello script: 
maglione colore rosso 


Per utilizzare i modificatori con PHP è sufficiente, come in Perl, aggiungere dopo la regex il parametro 
desiderato. 

PHP offre un gran numero di possibili modificatori. 

Tabella 19.1 Modificatori in PHP. 


Modificatore | Descrizione 


Non distinguere fra le lettere maiuscole e minuscole. 





Modalità multi-riga (l'accento circonflesso “” si ancora all'inizio e dopo ogni carattere di a- 
capo, il dollaro "$’ si ancora alla fine e prima di ogni carattere di a-capo). 


Modalità mono-riga singola (il carattere jolly punto corrisponde a tutti i caratteri, compreso 
il carattere di a-capo). 


Modalità estesa (gli spazi all'interno della regex vengono ignorati, se non in un'espressione; 
lo stesso dicasi per i caratteri che seguono il carattere cancelletto "#° fino al primo carattere 
di a-capo; in questo modo possiamo inserire dei commenti nella nostra regex). 


Con questo modificatore la funzione “preg_ replace’ (l'unica che lo usi) valuta la stringa da 
sostituire come codice PHP prima di utilizzarla. 








A Ancoraggio forzato della regex all'inizio del testo. 


L'ancoraggio dollaro "$" funziona solo con la fine del testo. Non funziona 
contemporaneamente al modificatore “m”. 


In presenza di un pattern da usare più volte, questo modificatore permette al motore di 
effettuare un'analisi avanzata per ottimizzare ulteriormente la regex. 


Modalità non ingorda ('U’ da ungreedy, non-ingordigia) dei quantificatori. 


X Modalità a funzionalità estese di PCRE, non compatibili con Perl. 


Modalità Unicode, che considera l'encoding UTF-8 per le espressioni regolari. 








Proviamo a usare il modificatore “i” per rendere case insensitive la nostra sostituzione: 
<?php 
$s = "maglione BIANCO"; 
$p = "/(bianco!rosso)/i"; 
$r = "colore \\1"; 
echo preg_replace($p, $r, $s); 
> 
Lo script, se eseguito, fornisce il risultato atteso: 


maglione colore BIANCO 


Particolarità del motore regex PHP 


Abbiamo già detto che PHP offre due insiemi di funzioni distinte che danno accesso alle potenzialità delle 
regular expression; sempre nel paragrafo precedente, abbiamo visto il lungo elenco di modificatori messi a 
disposizione da questo linguaggio. 

La variabili di backreference in PHP possono anche essere richiamate come in Perl con “$1”, “$2” e così via. 

Rivediamo l'ultimo esempio con questa sintassi di backreference: 


<?php 
$s = "maglione BIANCO"; 
$p = "/(bianco!rosso)/i"; 
$r = "colore $1"; 
echo preg_replace($p, $r, $s); 
?> 

L'output non cambia: 


maglione colore BIANCO 


NOTA La documentazione delle regex in PHP è ‘a disposizione all'indirizzo web 
http://www.php.net/manual/it/refpcre.php. 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression nel linguaggio di programmazione PHP. 


Capitolo 20 


Regex in JavaScript 


In questo capitolo esamineremo l'uso delle regular expression con il linguaggio JavaScript. 


JavaScript 


La storia di JavaScript è abbastanza complessa, per cui ci limiteremo a un riassunto degli eventi più 
importanti. 

Iniziamo dal nome: JavaScript non ha proprio niente a che fare con Java. Nel 1995, Brendan Eich di 
Netscape (allora produttrice e proprietaria del browser più diffuso al mondo) sviluppò un linguaggio di 
scripting da inserire nel browser. Inizialmente la società lo chiamò Mocha e poi Livescript. In seguito a un 
accordo con Sun, che comprendeva l'inserimento della Java Virtual Machine nel browser Netscape, il nome 
venne infine cambiato in JavaScript. 

Nell'agosto del 1996, Microsoft, seguendo una prassi consolidata che le ha portato tanto successo (anche se 
discusso), sviluppò una sua versione di JavaScript, JScript, includendola nella versione 3.0 del proprio browser 
Internet Explorer. Ovviamente la versione di Microsoft introduceva nel linguaggio varie estensioni 
proprietarie, che rendevano incompatibile con il browser Netscape il codice JScript che le avesse usate. 

Nel giugno del 1997 l'ente Ecma International definì lo standard ECMA-262 che stilava le specifiche di un 
linguaggio di scripting chiamato ECMAScript. 


NOTA Anche l'ente internazionale Ecma ha una storia particolare. L'acronimo ECMA in origine significava 
‘European Computer Manufacturers Association” (associazione europea dei produttori di computer). Quando 
però l'ente diventò internazionale, mutò il proprio nome aggiungendo il termine International’ e perdendo la 
connotazione dell'acronimo originale, tant'è vero che ora viene usualmente scritto con solo l'iniziale maiuscola. 


A tutt'oggi JavaScript e JScript sono considerate le due implementazioni più diffuse di ECMAScript, per cui, 
in termini precisi, avremmo dovuto parlare di regex in ECMAScript. Non l'abbiamo fatto perché pochi 
avrebbero riconosciuto in questo termine l'insieme che racchiude, tra gli altri, i ben più conosciuti JavaScript e 
JScript. 

JavaScript, primo tra i linguaggi che abbiamo sinora affrontato, non fa parte dei progetti open-source, tant'è 
vero che è un marchio registrato da Sun Microsystems. 

Attualmente la società Netscape non esiste più e il browser che ha preso il posto di Netscape Navigator è 
Firefox, sviluppato dalla Mozilla Foundation, nata per assicurare che il codice su cui si basa Netscape non 
morisse dimenticato. 


NOTA Attualmente, secondo le stime di W3 Schools (il cui indirizzo è http://www.w3schools.com/default.asp), 
Firefox raggiunge una diffusione tra il 30 e il 35%, mentre l'insieme dei browser Internet Explorer supera il 55% 
(sempre primo, ma certamente molto lontano dall'85% del 2002). Queste stime lasciano sicuramente il tempo che 
trovano per quanto riguarda i valori assoluti, ma indicano la precisa e indiscutibile tendenza alla fine della 
“dittatura” di Internet Explorer. 


Come usare le regex in JavaScript 


JavaScript supporta le regex in modo nativo fin dalla versione 1.2. A proposito del supporto delle regular 
expression per un certo linguaggio di programmazione, normalmente si parla di una determinata versione del 
linguaggio. Nel caso di JavaScript si deve considerare anche la versione del browser che lo ospita. 

JavaScript 1.2 è oramai supportato da tutti i principali browser: Firefox, Safari, Opera, Konqueror, Internet 
Explorer. Ma anche ActionScript di Flash segue la sintassi dello standard ECMA-262. 

Per accedere alle funzionalità delle regex con JavaScript dobbiamo usare l'oggetto “RegExp”. Vediamo come 
possiamo cercare una stringa tramite questo oggetto. 


NOTA Si tratta del problema che abbiamo proposto alla fine del primo capitolo: trovare all'interno di una frase 
tutte le parole di otto lettere che contengono la sottostringa “tex’, ma non all'inizio e nemmeno alla fine di essa. 


<HTML> 

<BODY> 

<SCRIPT LANGUAGE="Javascript"><!-- 
var s= "texwille ritexwil ritexto 12tex345"; 


var p= new RegExp(/\b(?=\w{8}\b)\w{1,4}tex\w*/); 
if (s.match(p)) 


alert("Trovato"); 


} 


else 


{ 


alert("Non trovato"); 
} 
Il > 
</SCRIPT> 
</BODY> 
</HTML> 


NOTA Se PHP era un preprocessore di ipertesti, favaScript è un linguaggio di scripting per ipertesti, quindi il suo 
codice viene spesso inserito all'interno del codice sorgente HTML tramite appositi tag. La funzione ‘alert’ apre 
una piccola finestra pop-up che mostra l'argomento passato. Notiamo l'utilizzo del metodo ‘match’ della stringa 
a cui passiamo la regex creata precedentemente con l'oggetto “RegExp 


Se apriamo un file come il precedente con un browser qualsiasi tra quelli che abbiamo elencato e che 
supportano JavaScript 1.2, otterremo una finestra simile a quella rappresentata nella Figura 20.1. 


a 


[JavaScript Application] 


Trovato 


A 





Figura 20.1 Finestra pop-up che segnala il successo della nostra regex. 
Se vogliamo trovare tutte le occorrenze dobbiamo utilizzare del codice leggermente diverso: 


<HTML> 

<BODY> 

<SCRIPT LANGUAGE="Javascript"><!-- 

var s = "texwille ritexwil ritexto 12tex345"; 

var p = new RegExp(/\b(?=\w{8}\b)\w{1,4}tex\w*/g); 
var ris = ""; 

while (r = p.exec(s)) 


ris+=r+"\n"; 
} 
alert(ris); 
[{ > 
</SCRIPT> 
</BODY> 
</HTML> 


NOTA La prima differenza da notare è il flag °g’ in fondo alla nostra regex. Poi abbiamo usato ripetutamente il 
metodo ‘exec’ dell'oggetto creato per recuperare in sequenza tutte le occorrenze trovate e appenderle alla 
variabile ‘ris’ visualizzata alla fine con un ‘alert’. 


L'output è rappresentato nella Figura 20.2. 
Vediamo ora come modificare una stringa con le regex di JavaScript: 


Ta 


[JavaScript Application] 


ritexwil 


A\ 12tex345 





Figura 20.2 Finestra pop-up con tutte le occorrenze trovate. 


<HTML> 

<BODY> 

<SCRIPT LANGUAGE="Javascript"><!-- 
var s = "maglione rosso"; 

var p = new RegExp(/(biancolrosso)/); 
s = s.replace(p, "colore $1"); 

alert(s); 

// --> 

</SCRIPT> 

</BODY> 

</HTML> 


NOTA In JavaScript la backreference si ottiene con °$1”. 
Nella Figura 20.3 vediamo l'output del nostro script. 
z 


[JavaScript Application] 


maglione colore rosso 


A 





Figura 20.3 La stringa sostituita. 


I modificatori in JavaScript si possono utilizzare aggiungendo dopo la regex il parametro desiderato. 
I modificatori di JavaScript sono i seguenti. 





Non distinguere fra lettere maiuscole e minuscole. 


g | Modalità globale che permette di trovare o sostituire tutte le occorrenze della regex. 





Modalità multi-riga (gli ancoraggi “*” accento circonflesso e “$" dollaro corrispondono a ogni inizio e fine 
riga). 


Mettiamo subito alla prova il modificatore ‘i’ per rendere case insensitive la nostra sostituzione: 


<HTML> 

<BODY> 

<SCRIPT LANGUAGE="Javascript"><!-- 
var s= "maglione BIANCO"; 

var p = new RegExp(/(bianco!rosso)/i); 
s = s.replace(p, "colore $1"); 

alert(s); 

I] > 

</SCRIPT> 

</BODY> 

</HTML> 


Vediamo, senza sorprese, nella Figura 20.4, la finestra ottenuta. 


Lei 


[JavaScript Application] 


maglione colore BIANCO 


A\ 





Figura 20.4 La stringa è sostituita anche se scritta in maiuscolo. 


Particolarità del motore regex JavaScript 


Abbiamo già visto alcune delle particolarità nel paragrafo precedente: i modificatori sono inseriti 
direttamente nella regex che è delimitata dalla barra semplice ‘/’ (slash). Se il contenuto della regex è in una 
stringa allora il modificatore può essere passato come ulteriore parametro. Rivediamo l'ultimo esempio riscritto 
con questa modalità: 


<HTML> 

<BODY> 

<SCRIPT LANGUAGE="Javascript"><!-- 
var s = "maglione BIANCO"; 
var m = "(bianco!rosso)"; 

var p = new RegExp(m, "i"); 
s = s.replace(p, "colore $1"); 
alert(s); 

I] => 

</SCRIPT> 

</BODY> 

</HTML> 


NOTA La riga incriminata’ è la seguente: 
var p= new RegExp(m, "i"); 


Un'altra caratteristica di JavaScript, mutuata in buona parte da Perl, è rappresentata dalle variabili di 
backreference. Anche in JavaScript si chiamano "$1°, ‘$2° e così via. 
Esistono inoltre altre variabili accessibili come attributi dell'oggetto globale “RegExp”: 





lastMatch ultima corrispondenza trovata; 





leftContext stringa che precede la corrispondenza trovata; 


rightContext stringa che segue la corrispondenza trovata; 
lastParen ultima backreference trovata. 


Modifichiamo uno degli esempi precedenti per verificare il funzionamento di queste variabili: 


<BODY> 

<SCRIPT LANGUAGE="Javascript"><!-- 

var s= "texwille ritexwil ritexto 12tex345"; 

var p = new RegExp(/\b(?=\w{8}\b)\w{1,4}tex\w*/g); 
var ris = ""; 

while (r = p.exec(s)) 


ris += "leftContext " + 
RegExp.leftContext + "\n"; 

ris += "rightContext " + 
RegExp.rightContext + "\n"; 

ris += "lastMatch " + 
RegExp.lastMatch + "\n"; 

ris += "lastParen " + 
RegExp.lastParen + "\n"; 

} 

alert(ris); 

I] --> 

</SCRIPT> 

</BODY> 

</HTML> 

<HTML> 


Diamo uno sguardo nella Figura 20.5 alla finestra pop-up ottenuta. 


P 


[JavaScript Application] 


A\ leftContext texwille 
rightContext ritexto 12tex345 
lastMatch — ritexwil 
lastParen 


leftContext  texwille ritexwil ritexto 
rightContext 

lastMatch 12tex345 

lastParen 





Figura 20.5 Alcune delle variabili dell'oggetto RegExp. 


NOTA La variabile ‘lastParen” non assume mai alcun valore perché nell'esempio non abbiamo utilizzato la 
backreference. 


Un esempio avanzato 


Con JavaScript e con l'aiuto di un browser possiamo provare un esempio un po' più avanzato, con un 
abbozzo di interfaccia grafica: 


<HTML> 
<BODY> 
<SCRIPT LANGUAGE="Javascript"><!-- 
function Cerca() { 
var r = new RegExp(document.RegexPocket.regex. 
value); 
if (document.RegexPocket.stringa.value.match(r)) 
{ 
alert("Trovato!"); 
} 


else 


1 
alert(“Non trovato!"); 
} 
} 


function Mostra() { 
var r= new 
RegExp(document.RegexPocket.regex.value, "g"); 


var m = 
r.exec(document.RegexPocket.stringa.value); 
if (m == null) { 
alert("Non trovato!"); 
} 
else 
{ 
var s = "Corrispondenza in posizione:\n"; 
do { 


UA 


s += m.index + ":"; 
for (i = 0; i < m.length; i++) { 
s+= mf] + "\n"; 

} 
} 
while(m = 

r.exec(document.RegexPocket.stringa.value)); 

alert(s); 
} 


function Sostituisci() { 
var r = new RegExp(document.RegexPocket. 
regex.value, "g"); 
document.RegexPocket.risultato.value = 
document.RegexPocket.stringa.value.replace( 
r, document.RegexPocket.sostituisci.value); 


} 
{> 
</SCRIPT> 


<FORM METHOD=POST NAME="RegexPocket" 
ACTION="Javascript:void(0)"> 
<P>Regex: <INPUT TYPE=TEXT NAME="regex" 
SIZE=60></P> 
<P>Stringa: <INPUT TYPE=TEXT NAME="stringa" 
SIZE=60></P> 
<P><INPUT TYPE=SUBMIT VALUE="Cerca" 
ONCLICK="Cerca()"> 
<INPUT TYPE=SUBMIT VALUE="Mostra la corrispondenza" 
ONCLICK="Mostra()"></P> 
<P>Sostituisci con: <INPUT TYPE=TEXT 
NAME="sostituisci" VALUE="" SIZE=60></P> 
<P>Risultato: <INPUT TYPE=TEXT NAME="Risultato" 
SIZE=60></P> 
<P><INPUT TYPE=SUBMIT VALUE="Sostituisci" 
ONCLICK="Sostituisci()"></P> 
</FORM> 


</BODY> 
</HTML> 


La Figura 20.6 mostra quello che vediamo aprendo il file precedente con Firefox. Nelle Figure 20.7 e 20.8 
vediamo come si comporta il nostro applicativo con alcuni esempi di questo capitolo. 
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Figura 20.6 Semplice strumento JavaScript per provare le regex. 





2=l0/x 


DI E [Li f6a/t)c4cma. htm! IG) L, 


Regex RC COn NETTE 
Stringa fizaulie fitesosal ritesdto 1 2tex345 


[JavaScript Applicatton] 


a] 








fs come [0 Es | sa , 


Figura 20.7 Risultato del clic sul pulsante “Mostra la corrispondenza”. 
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Figura 20.8 Risultato del clic sul pulsante “Sostituisci”. 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression con il linguaggio di scripting JavaScript. 
Abbiamo anche realizzato una pagina HTML con una minima interfaccia grafica per verificare il 
funzionamento delle regex. 


Capitolo 21 


Regex in Java 


In questo capitolo esamineremo l'uso delle regular expression con il linguaggio Java. 


Java 


Java è un linguaggio orientato agli oggetti sviluppato da Sun Microsystems agli inizi degli anni novanta. 
Molte persone possono, in qualche modo, dire di aver contribuito all'idea di Java. Addirittura fin dalla fine 
degli anni settanta, Bill Joy, allora vice-presidente di Sun, concepì l'idea di un nuovo linguaggio che avrebbe 
poi dato origine a Java. Nel gennaio del 1991 si riunì ad Aspen un gruppo di persone tra cui Bill Joy, James 
Gosling, Patrick Naughton e Mike Sheradin, per discutere del progetto Stealth (segreto), così come era stato 
chiamato inizialmente da Scott McNealy presidente di Sun. Inizialmente il linguaggio sarebbe dovuto servire a 
programmare periferiche intelligenti, destinate al largo consumo, connesse tra loro e controllate a distanza 
tramite un telecomando. Il progetto in seguito cambiò nome in Green (verde) e, nell'ambito di questo 
progetto, James Gosling fu incaricato di sviluppare un linguaggio adatto al progetto. Il nome in codice che 
diede al linguaggio fu Oak (quercia), perché al momento stava guardando una quercia bianca, fuori dalla 
finestra. Il nome fu abbandonato perché già registrato e, dopo molti caffè, fu scelto il nome Java (che, in 
americano, è sinonimo di caffè). 


NOTA Alcuni dicono che il nome sia in realtà un acronimo composto dalle iniziali di alcune delle persone 
coinvolte nel progetto: fames Gosling, Arthur Van Hoff e Andy Bechtolsheim, ma nessuno di loro ha mai 
confermato questa affermazione. 


Date le premesse richieste da un progetto del genere, il linguaggio doveva essere estremamente affidabile e 
completamente indipendente dalla piattaforma. Per questo motivo fu subito chiaro che il linguaggio doveva 
essere interpretato, visto che sarebbe stato praticamente impossibile riuscire a creare una versione compilata 
che girasse su più piattaforme. Un'altra caratteristica intrinseca del nuovo linguaggio doveva essere la 
sicurezza. 

Il progetto Green non ebbe successo nel conquistare il mercato che si era prefissato, ma il linguaggio Java si 
trovò al momento giusto nel posto giusto quando, nel 1994, Patrick Naughton e Jonathan Payne si trovarono a 
realizzare insieme WebRunner (in seguito chiamato HotJava), un browser scritto in Java: il Web aveva (ed ha 
ancora) per sua stessa natura la necessità di adottare un linguaggio stabile, sicuro e indipendente 
dall'architettura, tutte caratteristiche che stavano alla base del progetto Java. 

Sun annunciò Java e HotJava nel 1995 e subito dopo Netscape incorporò Java nel proprio browser (a quel 
tempo leader assoluto del mercato). In seguito anche Microsoft aggiunse il supporto per Java nel proprio 
browser Internet Explorer. 

Tutto ciò, unito alla fortissima campagna di marketing realizzata da Sun a supporto del proprio linguaggio, 
ha fatto sì che Java diventasse il linguaggio principe’ nel mondo Web, per la realizzazione di applet (mini- 
applicazioni che “girano” all'interno del browser sul computer dell'utente), di servlet (programmi in 
esecuzione su un Web server) e di applicazioni vere e proprie. 


NOTA Attualmente esistono molti altri linguaggi che stanno a poco a poco ‘rubando’ la scena a Fava: su tutti 
Python e Ruby. Sean Kelly, un programmatore del FPL (fet Propulsion Laboratory) della NASA ha fatto una 
meravigliosa presentazione a riguardo: http://oodt.jpl.nasa.gov/better-web-app.mov. Si tratta di un filmato di circa 
20 minuti (il file è più o meno di 380 MB), ma la sua visione è assolutamente consigliata. Anche se è in inglese, 
gli esempi sono chiarissimi e le cifre finali parlano da sole... 


Come usare le regex in Java 


Java, a partire dalla versione JDK 1.4, fornisce un motore per le regex con una libreria standard (in Java però 
le librerie si chiamano più precisamente package): “java.util.regex”. 

Le classi messe a disposizione dal package sono “Pattern” e “Matcher”. La prima permette di creare e 
compilare una regex; la seconda invece serve per effettuare una ricerca o una sostituzione. 

Vediamo un esempio di come possiamo cercare una stringa con queste due classi. 


NOTA Si tratta del problema che abbiamo proposto alla fine del primo capitolo: trovare all'interno di una frase 
tutte le parole di otto lettere che contengono la sottostringa “tex°, ma non all'inizio e nemmeno alla fine di essa. 


import java.util.regex.Pattern; 
import java.util.regex.Matcher; 
class RegexPocketApp { 
public static void main(String[] args) { 
String s = new String( 
"texwille ritexwil ritexto 12tex345"); 
Pattern p = Pattern.compile( 
"\\b(2=\\w{8}\\b)\\w{1,4}tex\\w®"); 
Matcher m = p.matcher(s); 
while (m.find() { 
System.out.println(m.group()); 
} 
} 
} 


NOTA Anche in Fava il simbolo backslash ha un significato speciale nelle stringhe; pertanto dobbiamo 
specificarlo doppio per far sì che “arrivi” fino motore delle regex senza essere interpretato prima. 


NOTA Java necessita una fase di precompilazione esplicita che i linguaggi interpretati di nuova generazione 
non richiedono più. Per provare l'esempio seguente dobbiamo salvare il testo in un file che dobbiamo chiamare 
‘RegexPocketApp.java”°. Quindi dobbiamo eseguire in successione i due comandi seguenti: 


javac RegexPocketApp.java 
java RegexPocketApp 


Ovviamente dobbiamo aver scaricato il JDK (Java Development Toolkit) che possiamo trovare 
gratuitamente sul sito di Sun dedicato a Java (http://java.sun.com). 

L'output della piccola applicazione Java è il seguente: 
ritexwil 
12tex345 


Con gli stessi oggetti possiamo modificare una stringa: 


import java.util.regex.Pattern; 
import java.util.regex.Matcher; 
class RegexPocketApp { 
public static void main(String[] args) { 
String s = new String( 
"maglione rosso"); 
Pattern p = Pattern.compile( 
"(bianco!rosso)"); 
Matcher m = p.matcher(s); 
s= m.replaceAll("colore $1"); 
System.out.println(s); 


NOTA Se salviamo questo esempio con un nuovo nome, per esempio ‘RegexPocketApp.java”, dobbiamo cambiare 
nome anche alla classe ‘RegexPocketApp” (deve avere lo stesso nome del file “.class” generato). 


Dopo la fase di compilazione ed esecuzione dello script precedente otterremo il seguente risultato: 
maglione colore rosso 


I modificatori in Java si possono utilizzare come parametri aggiuntivi nella fase di compilazione del pattern. 
I modificatori principali di Java sono i seguenti. 


CASE_INSENSITIVE | Non distinguere fra lettere maiuscole e minuscole. 


x «o» . 


COMMENTS Possibilità di inserire commenti nelle regex. 





Il carattere jolly punto “.° corrisponde anche al carattere a-capo (equivale alla modalità 


DOTALL monoriga di altri linguaggi). 


Modalità multi-riga (gli ancoraggi "’ accento circonflesso e “$" dollaro corrispondono a 
ogni inizio e fine riga). 


MULTILINE 


NOTA Esistono anche altri modificatori meno utilizzati, come ‘CANON_ EQ‘, LITERAL*, ‘'UNICODE_CASE ” e 
‘UNIX_LINES 


Riproviamo l'esempio con il modificatore “CASE_INSENSITIVE”: 


import java.util.regex.Pattern; 
import java.utilregex.Matcher; 
class RegexPocketApp { 
public static void main(String[] args) { 
String s = new String( 
"maglione BIANCO"); 
Pattern p = Pattern.compile( 
"(bianco!rosso)", pattern.CASE_INSENSITIVE); 
Matcher m = p.matcher(s); 
s= m.replaceAll("colore $1"); 
System.out.println(s); 


Il risultato atteso dall'esecuzione del precedente programma Java è il seguente: 
maglione colore BIANCO 


Particolarità del motore regex Java 


Alcuni dei modificatori che abbiamo già visto nel precedente paragrafo, possono essere inseriti direttamente 
nel pattern della nostra regex. La sintassi è simile a quella presentata nel capitolo relativo ai modificatori: 


Pattern.CASE_INSENSITIVE 
Pattern. COMMENTS 
Pattern.MULTILINE 

Pattern. DOTALL 

Pattern. UNICODE_CASE 





Pattern.UNIX_LINES 


Utilizziamo questa sintassi nell'esempio in cui abbiamo impiegato il modificatore CASE_INSENSITIVE: 


import java.util.regex.Pattern; 
import java.util.regex.Matcher; 
class RegexPocketApp { 
public static void main(String[] args) { 
String s = new String( 
"maglione BIANCO"); 
Pattern p = Pattern.compile( 
"(?1)(bianco!rosso)"); 
Matcher m = p.matcher(s); 
s= m.replaceAll("colore $1"); 
System.out.println(s); 
} 
} 


Il risultato, ovviamente, non cambia: 
maglione colore BIANCO 


Gli oggetti creati tramite le classi “Pattern” e “Matcher” hanno molti metodi utili per reperire informazioni 
sulle corrispondenze trovate con la regex. 

Senza volerli esaminare uno per uno, diamo uno sguardo a un esempio che usa i metodi start’ ed “end” che 
ci indicano la posizione iniziale e finale della corrispondenza trovata all'interno della stringa: 


import java.util.regex.Pattern; 
import java.util.regex.Matcher; 
class RegexPocketApp { 
public static void main(String[] args) { 
String s = new String( 


"texwille ritexwil ritexto 12tex345"); 

Pattern p = Pattern.compile( 
"\\b(?2=\\w{8}\\b)\\w{1,4}tex\\w®"); 

Matcher m = p.matcher(s); 

while (m.find()) { 
System.out.println("----------------- "); 
System.out.println("group(): "+m.group()); 
System.out.println("start(): "+m.start()); 
System.out.println("end(): "+m.end()); 


} 


Il risultato dell'esecuzione è il seguente: 
group(): ritexwil 
start(): 9 
end(): 17 
group(): 12tex345 
start(): 26 
end(): 34 


NOTA Per una descrizione dettagliata delle classi e dei metodi del package regex, possiamo esaminare la 
documentazione disponibile sul sito Sun: http://java.sun.com/docs/books/tutorial/essential/regex/index.html 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression con il linguaggio di scripting Java. 


Capitolo 22 


Regex in .NET 


In questo capitolo esamineremo l'uso delle regular expression con il framework Microsoft .NET. 


.NET 


L'ambiente di programmazione .NET è stato realizzato da Microsoft e rilasciato per la prima volta nel 2002. 
In .NET è possibile sviluppare applicazioni usando molti linguaggi: C#, Visual Basic.NET, C++, J#, JScript. 
NET, IronPython e altri. 

I programmi, quale che sia il linguaggio utilizzato per scriverli, vengono poi compilati in un metalinguaggio 
comune (denominato MSIL, Microsoft Intermediate Language) tramite lo strumento di sviluppo che abbiamo 
scelto; questo permette a file di codice sorgente scritti in linguaggi differenti di presentarsi in modo uniforme 
all'ambiente run-time, chiamato CLR (Common Language Runtime), che provvede all'ultima compilazione 
just-in-time (JIT, letteralmente “appena in tempo”) in linguaggio macchina e all'effettiva esecuzione del codice. 

CLR è a tutti gli effetti una vera e propria macchina virtuale, così come lo è la JVM di Java o l'interprete di 
linguaggi di Python, Ruby e Perl. Ma come abbiamo detto, a differenza di queste ultime macchine virtuali, con 
CLR possiamo utilizzare più di un linguaggio. 

I principali obiettivi che Microsoft si è imposta durante la progettazione di .NET sono stati l'indipendenza 
dal linguaggio, la facilitazione del lavoro degli sviluppatori, la sicurezza e una ampia libreria di funzioni 
comuni. 

Contemporaneamente a .NET, Microsoft ha deciso di sviluppare un nuovo linguaggio il cui nome è C# (si 
pronuncia “C-sharp'). 

In questo capitolo, per gli esempi delle regex in .NET, utilizzeremo proprio il linguaggio C#. 

NOTA Nonostante sia un linguaggio di programmazione abbastanza recente e sebbene non introduca molte 
innovazioni (c'è chi afferma che sia un ibrido fra Fava e C++), C# ha già raggiunto una discreta diffusione. 
Nell'ottimo indice pubblicato mensilmente dalla TIOBE si trova attualmente all'ottavo posto, dopo aver 
raggiunto anche il settimo, come possiamo notare osservando la Figura 22.1 (http://www.tiobe.com/index.htm? 
tiobe_index). 


Come usare le regex in .NET 


Fortunatamente il supporto per le regex in .NET è completo e approfondito fin dal primo rilascio, per cui, 
per poterle usare, non dobbiamo scaricare o installare alcun pacchetto aggiuntivo (cosa che invece dobbiamo 
fare, per esempio, se vogliamo usare le regex con Visual Basic 6.0, come vedremo nel prossimo capitolo). 

La libreria (in .NET però si chiamano più precisamente namespace ovvero spazi dei nomi) che contiene 
tutte le classi per la gestione delle regex si chiama “System.Text.RegularExpressions' e l'istruzione completa per 
usarla in un nostro programma in C# è: 


using System.Text.RegularExpressions; 


In VB.Net l'istruzione corrispondente è invece: “Imports System. Text.RegularExpressions”. 
Vediamo un esempio completo di ricerca di una stringa con una regex realizzata in C#: 


using System; 

using System.Collections.Generic; 
using System.Text; 

using System.Text.RegularExpressions; 
namespace RegexPocketConsole 


{ 
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Figura 22.1 Indice dell'uso stimato dei linguaggi. 


class Program 
{ 
static void Main(string[] args) 
{ 
String s = 
"texwille ritexwil ritexto 12tex345"; 
Regex r = new Regex( 
"\\b(?=\\w{8}\\b)\\w{1,4}tex\\w®"); 
Match m = r.Match(s); 
while (m.Success == true) 
{ 
Console.WriteLine(m.Value); 
m = m.NextMatch(); 
} 
} 
} 
} 


NOTA Anche in C#, come in Fava e in altri linguaggi di programmazione, il backslash ha un significato speciale 
nelle stringhe e dobbiamo quindi ‘raddoppiarlo’. In alternativa possiamo anteporre la "chiocciola" a tutta la 
stringa, ovvero @*\b(?=\w{8}\b)\w{1,4}tex\w®" 


NOTA Per semplicità, il progetto che abbiamo creato è di tipo “Console Application’, come mostrato nella 
Figura 22.2. In questo modo possiamo eseguire il nostro programma direttamente dalla riga di comando. 


Dopo aver compilato la nostra applicazione, possiamo eseguirla. Nella Figura 22.3 è visualizzato l'output che 
otteniamo. 
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Figura 22.3 L'output dal prompt dei comandi di RegexPocketConsole. 
Proviamo ora a scrivere un'applicazione che modifica una stringa: 

using System; 

using System.Collections.Generic; 

using System.Text; 

using System.Text.RegularExpressions; 

namespace RegexPocketConsole 


class Program 
{ 
static void Main(string[] args) 
{ 
String s = "maglione rosso"; 
Regex r = new Regex("(bianco!lrosso)"); 
s = r.Replace(s, "colore $1"); 
Console.WriteLine(s); 


Il programma, una volta compilato ed eseguito, visualizzerà la seguente stringa: 
maglione colore rosso 
I modificatori, in .NET, sono disponibili come attributi della classe “RegexOptions'”. 


I principali, in dettaglio, sono i seguenti. 
Tabella 22.1 Modificatori in .NET. 


Modificatore Descrizione 


IgnoreCase Non distinguere fra lettere maiuscole e minuscole. 


Il carattere jolly punto ”.° corrisponde anche al carattere a-capo (equivale alla 
Singleline modalità mono-riga di altri linguaggi). 


Modalità multi-riga (gli ancoraggi “*” accento circonflesso e “$" dollaro 
Multiline corrispondono a ogni inizio e fine riga). 


Segnala al motore di regex di compilare l'espressione, in modo da velocizzarne al 
Compiled massimo l'esecuzione 


IgnorePatternWhitespace | Possibilità di inserire commenti nelle regex 


Specifica che la backreference è attiva solo per i gruppi con nome ‘(?<nome...>)”. In 
questo modo la parentesi normali fungono da gruppi passivi, senza la necessità di 


ExplicitCapture 


” 


inserire il comando ‘(?: ) 


Specifica che la ricerca debba essere condotta da destra verso sinistra (in pratica, 
RightToLeft prima di iniziare, la stringa viene rovesciata ) 


NOTA Gli altri modificatori, meno utilizzati, sono “CultureInvariant’ e None”. 





Riproviamo l'esempio applicando il modificatore “IgnoreCase”: 


using System; 

using System.Collections.Generic; 
using System.Text; 

using System.Text.RegularExpressions; 
namespace RegexPocketConsole 


{ 


class Program 
{ 
static void Main(string[] args) 
{ 
String s = "maglione BIANCO"; 
Regex r = new Regex("(biancolrosso)", 
RegexOptions.IgnoreCase); 
s = r.Replace(s, "colore $1"); 
Console.WriteLine(s); 


Come ormai dovremmo avere imparato, il risultato atteso dall'esecuzione del precedente programma C# è il 
seguente: 


maglione colore BIANCO 


Particolarità del motore regex .NET 


Il supporto per le regular expression di .NET è molto ampio, per cui non esistono sostanzialmente 
limitazioni. 

Nel caso dei gruppi con nome, .NET utilizza una convenzione leggermente diversa rispetto agli altri motori. 
Python, che come ricordiamo ha introdotto questo costrutto, utilizza la sintassi ‘(?P<nome>regex)” e i gruppi 
così definiti possono essere riutilizzati con “(?P=nome)”. .NET invece usa per gli stessi scopi ‘(?<nome>regex)” e ” 
\k<nome>". Inoltre (e onestamente non se ne capisce il motivo) introduce una seconda sintassi "(*nome'regex)” e 
“\k'nome!”. 


NOTA La definizione di una sintassi senza le parentesi angolari o ’bracket’ (i segni “<" e >") può essere stata 
introdotta per facilitarne l'uso con VBScript all'interno delle pagine HTML. 


Come in Java, anche in .NET gli oggetti creati tramite le classi Regex e Match hanno numerosi metodi 
utilizzabili per recuperare le caratteristiche delle corrispondenze trovate con la regex. 


Senza volerli elencare uno per uno, diamo uno sguardo a un esempio che usa gli attributi “Index” e “Length” 
che ci indicano la posizione iniziale e finale all'interno della stringa della corrispondenza trovata: 


using System; 

using System.Collections.Generic; 
using System.Text; 

using System.Text.RegularExpressions; 
namespace RegexPocketConsole 


{ 
class Program 
{ 
static void Main(string[] args) 
{ 
String s = 
"texwille ritexwil ritexto 12tex345"; 
Regex r = new Regex( 
"\b(?2=\\w{8}\\b)\\w{1,4}tex\\w®5); 
Match m = r.Match(s); 
while (m.Success == true) 
{ 
Console.WriteLine("-------------- "); 
Console.WriteLine(m.Value); 
Console.WriteLine(m.Index); 
Console.WriteLine(m.Length); 
m = m.NextMatch(); 
} 
} 
} 
} 
Il risultato dell'esecuzione è il seguente 
ritexwil 
8 
9 
12tex345 
8 
26 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression con il framework Microsoft .NET. 


Capitolo 23 


Regex in Visual Basic 


In questo capitolo esamineremo l'uso delle regular expression in Visual Basic (che non va confuso con 
Visual Basic.NET). 


Visual Basic 


La versione 1.0 di Visual Basic fu presentata da Microsoft nel lontano 1991. Il ‘papà’ di Visual Basic è stato 
Alan Cooper, che sviluppò un prototipo chiamato Tripod, da cui la Microsoft derivò l'interfaccia grafica di 
Visual Basic. 

Talvolta si sente dire che VB (il nomignolo di Visual Basic) è stato il primo linguaggio di programmazione 
visuale o che è un linguaggio orientato agli oggetti. Entrambe le affermazioni non sono corrette, anche se 
hanno un parziale fondo di verità. 

Visual Basic, pur non abbracciando completamente il paradigma di programmazione visuale, permette 
infatti al programmatore di disegnare “visualmente” l'interfaccia, senza scrivere esplicitamente alcuna riga di 
codice: gli oggetti vengono collocati e dimensionati sulle finestre con il mouse, in modo da poter vedere subito 
il look dell'applicazione senza passare dalla compilazione e dall'esecuzione. 

Anche per quanto riguarda il paradigma della programmazione orientata agli oggetti, Visual Basic ne 
abbraccia solo una parte: il cosiddetto incapsulamento (encapsulation) senza fornire gli altri due pilastri: l' 
ereditarietà (inheritance) e il polimorfismo (polymorphism). L'encapsulation in Visual Basic è ottenuta con i 
famosi (per chi conosce il linguaggio) oggetti VBX, che sono componenti aggiuntivi, sviluppati anche da terze 
parti, utilizzabili in Visual Basic come delle black box (scatole nere) di cui non si conosce il funzionamento 
interno ma solo le funzionalità fornite. 

L'introduzione di Visual Basic ha permesso a molti programmatori che non conoscevano il funzionamento 
interno di Windows di realizzare programmi complessi ed evoluti. Attualmente la mole di programmi 
realizzati in VB è tanto elevata che, a tutt'oggi, Visual Basic è il quinto linguaggio più popolare (stando 
all'indice TIOBE che abbiamo presentato nel capitolo precedente). 


Come usare le regex in Visual Basic 


Anche nella sua ultima versione, la 6.0 rilasciata nel 1998, VB non supporta in modo nativo l'uso delle 
regular expression. 

E possibile però utilizzare il componente aggiuntivo Microsoft VB Script Regular Expression 5.5, fornito 
gratuitamente insieme a Internet Explorer dalla versione 5.5 in poi e già incluso in Windows a partire dalla 
versione XP. Nella Figura 23.1 è mostrata la selezione del suddetto componente nei riferimenti del progetto. 
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Figura 23.1 Ecco come poter utilizzare le regex con Visual Basic. 
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Proviamo ora a realizzare una piccola applicazione per vedere all'opera le regex in Visual Basic. 

Creiamo un progetto standard e aggiungiamogli il componente Microsoft VB Script Regular Expression 5.5. 
Quindi creiamo un form e aggiungiamo gli oggetti come mostrato nella Figura 23.2. 

Facciamo doppio clic sul pulsante “Commandi” e inseriamo nella finestra che si aprirà il codice seguente: 


Option Explicit 

Private Sub Commandi_Click() 
Dim r As RegExp 
Dim mc As MatchCollection 
Dim m As Match 
Set r = New RegExp 
r.Global = True 
r.Pattern = Form1.Text1 








Figura 23.2 Il form per la nostra applicazione. 


Set mc = r.Execute(Form1.Text2) 
Form1.List1.Clear 
For Each m In mc 
Form1.List1.AddItem m.Value 
Next 
End Sub 


A questo punto premiamo F5 per lanciare l'esecuzione del nostro programma, inseriamo nei due campi le 
seguenti stringhe e infine premiamo il pulsante “Command1”: 


b(?2=\w{8}\b)\w{1,4}tex\w* 
texwille ritexwil ritexto 12tex345 


Se non abbiamo commesso errori, dovrebbe apparirci la schermata rappresentata nella Figura 23.3. 
Per provare la sostituzione modifichiamo leggermente il nostro form come indicato nella Figura 23.4. 
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Figura 23.3 Il risultato dell'esecuzione della nostra applicazione. 














Figura 23.4 La seconda applicazione in VB per la sostituzione. 


Il codice da abbinare al clic del pulsante “Commandi” è ora: 


Option Explicit 
Private Sub Command1_Click() 

Dim r As RegExp 

Set r = New RegExp 

r.Pattern = Form1.Textl 

Form1.List1.Clear 

Form1.List1.AddItem r.Replace(Form1.Text2, _ 

Form1.Text3.Text) 

End Sub 


Nella Figura 23.5 vediamo il risultato ottenuto inserendo le seguenti stringhe nei tre campi del form e 
facendo clic sul pulsante “Command1”: 


(bianco'rosso) 
maglione rosso 
colore $1 
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Figura 23.5 Il risultato dell'esecuzione della nostra applicazione. 


Le regex di VB ci permettono di usare solo tre modificatori. 
Eccoli in dettaglio. 


IgnoreCase | Non distinguere fra lettere maiuscole e minuscole. 
Global Permette la ricerca e/o sostituzione di tutte le occorrenze trovate 





Modalità multi-riga (gli ancoraggi ‘*” accento circonflesso e “$" dollaro corrispondono a ogni 
inizio e fine riga). 


Multiline 


Riprendiamo l'ultimo esempio e, per renderlo insensibile alle differenze fra lettere maiuscole e minuscole, ci 
basta inserire nel codice la seguente riga subito dopo la creazione della regex: 


r.IgnoreCase = True 
Nella Figura 23.6 vediamo il risultato dell'esecuzione con queste altre stringhe: 


(bianco!rosso 
maglione BIANCO 
colore $1 





[sfm 


[tincalosso 
[ragiore BIANCO 
[ecore sì 


magione colore BIANCO 





Figura 23.6 Il risultato dell'esecuzione della versione case insensitive. 


Particolarità del motore regex Visual Basic 


Per essere precisi dovremmo in realtà parlare del motore regex del componente Microsoft VB Script Regular 
Expression 5.5. Il supporto alle regex che riusciamo ad avere tramite questo oggetto è più che sufficiente, ma 
alcune funzionalità avanzate dei motori più potenti non sono disponibili. Manca infatti il supporto per: 


CI Unicode; 

o i gruppi con nomi (esiste la backreference con numeri); 
. espressioni con commenti; 

° “guarda indietro” (esiste invece il “guarda avanti’); 


e ancoraggiglobali \A" e "\Z". 


Gli oggetti che ci sono messi a disposizione non hanno molti metodi o attributi, però è presente un insieme 
minimale di funzionalità. Per esempio vediamo il codice del primo esercizio, modificato per usare gli attributi 
“FirstIndex” e “Length” dell'oggetto “match” che ci danno l'inizio e la lunghezza dell'occorrenza trovata: 


Option Explicit 
Private Sub Command1_Click() 
Dim r As RegExp 
Dim mc As MatchCollection 
Dim m As Match 
Set r = New RegExp 
r.Global = True 
r.Pattern = Form1.Text1 
Set mc = r.Execute(Form1.Text2) 
Form1.List1.Clear 
For Each m In mc 
Form1.List1.AddItem m.Value + _ 
"" + Str(m.FirstIndex) + _ 
"" + Str(m.Length) 
Next 
End Sub 


La Figura 23.7 mostra, nell'elenco in basso, le informazioni aggiuntive che abbiamo reperito sulle 
corrispondenze trovate. 


ERETTO A 


terme item rivertio 1 2ie345 


tend 9 8 
1345 8 9 





Figura 23.7 Qualche informazione in più sulle corrispondenze. 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression con Visual Basic tramite il componente 
aggiuntivo Microsoft VB Script Regular Expression 5.5. 


Appendice A 


Le implementazioni 


In questa appendice tratteremo un argomento avanzato che riguarda i motori delle regular expression: la 
loro implementazione, anzi, le loro implementazioni, visto che esistono due principali scuole di pensiero a 
riguardo. Prima però è necessario introdurre un po' di teoria. 


Automa a stati finiti 


Cosa mai può essere un automa a stati finiti? Sembra una definizione complessa, ma in realtà non lo è per 
nulla. Si tratta di un modello che descrive un comportamento in cui esiste un numero finito di stati e varie 
azioni che provocano la transizione da uno stato a un altro. 

Un esempio ci può aiutare nella comprensione. Guardiamo nella Figura A.1 l'automa a stati finiti che 
descrive il semplice processo di accensione e spegnimento di un personal computer. 

Questo sistema, davvero molto semplice, ha solo due stati e due azioni che provocano due transizioni. 

Lo stato iniziale è quello di”Computer SPENTO”. In questo stato esiste una sola possibile azione: la 
pressione del tasto di accensione “Premi ON”. Questa azione permette la transizione allo stato “Computer 
ACCESO”. 

In questo nuovo stato di Computer ACCESO’ è accessibile l'altra azione, la pressione del tasto di 
spegnimento “Premi OFF”, che causa la transizione allo stato “Computer SPENTO”. 


Premi ON 
(1 —_————€—_——_————— 


| Computer \ Î Computer \ 


ì 
ì 


| SPENTO | | ACCESO | 


Premi OFF 





Figura A.1 L'automa a stati finiti che descrive l'accensione di un computer. 


Automi e regex 


La domanda che sorge spontanea è: ma cosa c'entrano questi automi a stati finiti con le regular expression? 
Anche questa risposta è molto semplice: un'espressione regolare può essere rappresentata da un automa a stati 
finiti. 

Siccome gli automi sono facilmente riproducibili in un linguaggio comprensibile ai computer, possiamo 
farne uso per realizzare un motore informatico che li gestisca. 

Proviamo, per esempio, a tradurre con un automa l'espressione regolare “ab*c’ (ricordiamo che il 
quantificatore "** significa "zero o più"). 

Nella Figura A.2 vediamo l'automa che rappresenta questa semplice regex. 

Dallo stato iniziale possiamo, se incontriamo la lettera “a”, passare al secondo stato. A questo punto abbiamo 
due alternative: possiamo incontrare la lettera "c” che ci porta allo stato finale oppure possiamo incontrare la 
lettera "b’ che ci porta di nuovo al secondo stato. 


NOTA Abbiamo, per semplicità, rappresentato lo stato finale con un doppio cerchio. 








Figura A.2 L'automa a stati finiti della regex ab+c. 


Se dobbiamo analizzare la stringa “deabbcf’ alla ricerca di una corrispondenza con la regex “ab*c’, possiamo 
provare il nostro automa partendo dalla prima lettera e proseguendo verso destra: 


° lettera “d’, siamo nello stato iniziale e non possiamo andare da nessuna parte, nessuna corrispondenza 
e passiamo alla lettera successiva; 

o lettera “e”, siamo ancora nello stato iniziale e non possiamo andare da nessuna parte, nessuna 
corrispondenza e passiamo alla lettera successiva; 

o lettera “a”, siamo sempre nello stato iniziale e possiamo andare allo stato successivo (che non è un 
possibile stato finale); 

° lettera “b”, siamo nel secondo stato e possiamo effettuare una transizione verso lo stesso stato; 

CI lettera "b”, siamo ancora nel secondo stato e possiamo effettuare una transizione verso lo stesso stato; 

CI lettera "c”, siamo nel secondo stato e possiamo effettuare una transizione verso il terzo stato che, 


essendo uno stato finale, ci permette di stabilire che abbiamo trovato una corrispondenza. 


Con questi semplici passaggi abbiamo potuto stabilire che la regex “ab*c” ha una corrispondenza nella 
stringa deabbcf’ a partire dalla terza lettera, la "a’. 


Determinismo o indeterminismo? 


Esistono due tipi di automi a stati finiti: gli automi a stati finiti deterministici (chiamati semplicemente DFA 
dall'inglese "Deterministic Finite Automata”) e gli automi a stati finiti non deterministici (chiamati NFA da 
“Non-deterministic Finite Automata”). 

La differenza fra loro è che nel caso dei DFA, in ogni stato la transizione è determinata, in modo univoco e 
senza possibili ambiguità, dalla prossima lettera incontrata. Gli automi che abbiamo visto fin qui in questa 
appendice sono tutti DFA. 

Viceversa nel caso degli NFA in un dato stato possono esistere delle transizioni ambigue: una stessa lettera 
può portare a diversi stati successivi. In questo caso il motore che interpreta l'automa, prima di poter stabilire 
se una regex individua o meno delle corrispondenze in una stringa, deve tornare sui propri passi e provare 
tutte le possibili combinazioni. 

Sicuramente ci domanderemo: perché dobbiamo occuparci degli NFA? Non avremmo una vita più semplice 
limitandoci ai più facili e meno imprevedibili DFA? Confermando la nostra fiducia nel detto che un'immagine 
vale più di mille parole vediamo come la stessa regex, leggermente più complessa di “ab*c’, possa essere 
rappresentata da un DFA e da un NFA. 

Nelle Figure A.3 e A.4 vediamo la regex ‘(cld)*cdd” rappresentata rispettivamente da un NFA e da un DFA. 

L'automa NFA è molto semplice, corrisponde in maniera diretta alla regex e, come possiamo vedere, in 
almeno un caso ha una transizione ambigua; dallo stato iniziale, se incontriamo la lettera “c” abbiamo due 
possibili transizioni: verso il secondo stato o nuovamente verso lo stato iniziale. In qualche modo questo è 
rispecchiato nella regex. Infatti, quando incontriamo una lettera “c”, non sappiamo se siamo in presenza di 
una “c’ che può essere ripetuta a piacere nella prima parte della regex ‘(c'd)*” o se siamo in presenza della "c” 
della seconda parte della regex "cdd”. 

L'automa DFA è più complesso e difficile da costruire, ha più transizioni, ma offre il vantaggio di non farci 
mai trovare di fronte a un bivio: quando incontriamo all'inizio una lettera “c’ passiamo sempre e comunque al 
secondo stato e così via. 





Figura A.4 L'automa a stati finiti di tipo DFA della regex (cld)*cdd. 


NOTA Se proviamo a percorrere l'automa NFA e l'automa DFA con una stringa che corrisponda alla regex 
‘(cld)*cdd‘, per esempio “cccdedd’, vedremo che nel caso del secondo automa il nostro percorso è sempre diretto e 
mai ambiguo. Nel caso del primo automa, invece, potremmo dover tornare sui nostri passi se abbiamo scelto una 
strada sbagliata (per esempio se all'ultima “c° siamo nello stato iniziale e non scegliamo la transizione che ci 
porta al secondo stato). 


Due diverse implementazioni 


Abbiamo visto come ci siano due possibili tipi di automi che possono rappresentare una stessa regex. Nel 
caso degli NFA abbiamo una rappresentazione più semplice ma un percorso più difficile. Nel caso dei DFA 
abbiamo una rappresentazione più complessa ma un percorso più semplice e diretto. 

All'inizio di questa appendice abbiamo parlato di due differenti scuole di pensiero: probabilmente in questo 
momento staremo pensando che una segua la filosofia dei DFA e l'altra degli NFA. Non è così: entrambe 
seguono la scuola degli NFA, perché il problema della costruzione di un DFA a partire da una regex può essere 
molto complesso e, addirittura, richiedere un tempo estremamente alto. Viceversa, come abbiamo visto, 
costruire un NFA a partire da una regex è molto semplice e la complessità si sposta nella ricerca di un percorso 
verso l'individuazione di una corrispondenza. î 

Dov'è, quindi, la differenza tra le due scuole di pensiero? E tutta nella strategia adottata per affrontare la 
possibile ambiguità nella scelta delle transizioni tra i diversi stati. 

Una scuola, che chiameremo della backreference, quando si trova in un vicolo cieco torna sui propri passi 
riprovando tutte le possibilità fino a esaurirle o fino a trovare uno stato finale. 

L'altra scuola, che chiameremo dei multistati, quando si trova di fronte a un bivio percorre entrambe le 
strade e memorizza contemporaneamente tutti i percorsi multipli. 


NOTA Questa seconda scuola segue l'algoritmo progettato per la prima volta da Ken Thompson nel 1968. 


Qual è la differenza in termini di performance tra le due scuole? Perché, nella lunga storia delle regex, non è 
sopravvissuta solo una? 

La risposta, purtroppo, non è semplice. La scuola della backreference si comporta estremamente meglio 
nella grande maggioranza dei casi. La scuola dei multistati invece è normalmente più lenta ma, con alcune 
regex molto complesse (e in verità abbastanza rare, anzi, diciamo pure del tutto inusuali), surclassa 
clamorosamente l'avversaria. 

Per esempio, se dovessimo cercare nella stringa composta da 29 lettere “a” consecutive una corrispondenza 
per la seguente regex, la prima scuola impegnerebbe circa un minuto di CPU mentre la seconda userebbe solo 
venti milionesimi di secondo: 


a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a? 
a?a?aaaaaaaaagaaaagaaaagagagag]ggZaaaaa 


È vero che una regex come questa non è per niente usuale, ma ciononostante dobbiamo accettare il fatto 
che sia formalmente corretta. 

In altre parole il problema di stabilire quale scuola sia la migliore può essere tradotto nel seguente modo; 
dobbiamo andare al lavoro: possiamo usare un'automobile velocissima ma che potrebbe, in casi rarissimi, 
procedere a 2 km/h per tutto il tragitto; in alternativa possiamo usare un‘automobile più lenta ma che non ci 
darà mai sorprese negative. Quale macchina scegliamo? 

Poiché non esiste una risposta certamente “giusta” a questa domanda, allo stesso modo, al giorno d'oggi, 
entrambe le scuole hanno dei seguaci. 

Per dire la verità, la maggior parte delle implementazioni attuali ha seguito la scuola della backreference e 
solo in pochi casi esistono implementazioni della scuola a multistati. 

Questo fatto potrebbe sembrarci strano, ma ha un motivo abbastanza valido a suo supporto: 
l'implementazione di un motore con la backreference permette di avere regular expression che hanno 
caratteristiche avanzate, come i gruppi e le alternative (curiosamente argomenti che abbiamo affrontato nello 
stesso capitolo). Queste stesse caratteristiche non possono essere ottenute con un motore a multistati. 


NOTA Un articolo che affronta in dettaglio, con grafici e misurazioni, la questione delle due scuole è stato 
scritto da Russ Cox e può essere letto (in inglese) all'indirizzo: http://swtch.com/-rsc/regexp/regexp1.html. 


Appendice B 


Esempi utili 


Esistono molti problemi comuni, più o meno complessi, di elaborazione dei testi che possono essere 
affrontati con le regular expression. 
In questa appendice raccoglieremo, esamineremo e risolveremo alcuni casi facili e altri meno facili. 


CAP 


Può capitare di dover controllare la correttezza di un CAP (Codice di Avviamento Postale) che, come 
sappiamo, è composto da 5 cifre. Purtroppo non possiamo considerarlo un valore numerico perché, come ben 
sappiamo, un CAP può iniziare con uno 0 (zero), che in questo caso si perderebbe. Possiamo quindi trattarlo 
come un campo di tipo stringa e utilizzare una regex per verificare la sua correttezza formale. 

Testo: 


1234 
00100 
21022 
abcde 
98765a 
12345 


Regex: 
A\d{5}$ 
Risultato: 


1234 
00100 
21022 
abcde 
98765a 
12345 


NOTA Possiamo usare la stessa regular expression per controllare un codice ABI (Associazione Bancaria Italiana) 
o un codice CAB (Codice di Avviamento Bancario). 


HTML 


Considerando pagine scritte in HTML, potremmo voler estrarre tutto il testo contenuto tra i tag (in inglese 
significa etichetta) della pagina. La possibile presenza di commenti HTML contenenti a loro volta dei tag rende 
il nostro compito ancora più complesso. 

Questa volta proviamo a scrivere un programma in Python che, utilizzando una regular expression, svolga 
l'operazione richiesta: 


import re, sys 
if__name__ == "__main__": 

r = re.compile( 

‘(<1--*9-->)I(<[1>]>)I([2<]+), re. 

for x, y, z in r.findall( 

open(sys.argv[1]).read()): 
if z.strip(): 
print z.replace("&nbsp;", " ") 





La regular expression ‘(<!--.*?-->)i(<[>]">)I([<]+)" spezza in blocchi la nostra stringa. Ogni singolo blocco 
può essere un commento “(<!--.*?-->)” o un tag ‘(<[*>]?>)" o il contenuto tra un tag e l'altro ‘([*<]+)". 

L'istruzione” findall” restituisce una lista di tre valori “x°,“y",°z° che corrispondono a ognuno di questi tre tipi 
di blocchi. A noi interessa solo il blocco del terzo tipo (il contenuto tra un tag e l'altro) e quindi stampiamo 


solo quello, avendo l'accortezza di sostituire l'entità "&nbsp;° con uno spazio. 


Se eseguiamo questo programmino (lungo solo 6 righe!) passandogli un file contenente il codice HTML di 
http://www.google.it otteniamo questo risultato: 


Google 

Personalizza questa pagina 
Accesso 

Web 

Immagini 

Gruppi 

News 

altro &raquo; 

Ricerca avanzata Preferenze 
Strumenti per le lingue 
Cerca: 

il Web 

pagine in Italiano 

pagine provenienti da: Italia 
Pubblicità 

Soluzioni Aziendali Tutto su Google 
Google.com in English 
&copy;2007 Google 


Per renderci conto della fatica che risparmiamo grazie alla nostra regex (e al nostro programmino Python) 
diamo un‘occhiata alla Figura B.1 che contiene il codice HTML originale di http://www.google.it. 


Password 


Un altro caso comune quando si ha a che fare con il Web (se non è così e se siamo nel campo informatico, 
bene, è il caso che iniziamo ad averci a che fare) è il controllo della robustezza di una password inserita da un 
utente. 

Supponiamo di voler obbligare l'utente a inserire una password lunga da 6 a 12 caratteri che contenga 
almeno una lettera minuscola, una lettera maiuscola, una cifra e non contenga alcuno spazio. 

Ecco la regular expression che fa per noi. 

Testo: 


aA234 

pippo 234A 
abcdDE23 
12345678901234 
ABC1234 


Regex: 
(2=*a-z]))(="[A-Z)(2=.A\d(21*\5).{6,12}$ 
Risultato: 


aA234 
pippo234A 
abcdDE23 
12345678901234 
ABC1234 


Sonim el) Poe Anne gonone. LI - Adi Ra Fi rare 


LED TA rune apo Dan 

vi° onelache varare 

itatabong* omelacke varare 
n° anelieaer 


i apazingnto te + 
Rigpiit tace tegia e 3 Den 1 


- naluo» 





Figura B.1Il codice HTML di http://www.google.it. 


NOTA Se 6 caratteri ci sembrano pochi, dobbiamo pensare che le diverse combinazioni di lettere minuscole, 
maiuscole e cifre (62 caratteri distinti) di lunghezza 6 sono 56.800.235.584 (62°). Un programma in grado di 
sottoporre 1.000 password al secondo impiegherebbe circa 657 giorni per provarle tutte. Le password di lunghezza 
12 sarebbero a tutt'oggi probabilmente inattaccabili anche dalla CIA o dalla NSA, con più di 3.226 miliardi di 
miliardi di combinazioni diverse. 


Ma attenzione a non esagerare! 


Esiste un detto famoso riguardante le regular expression. 
Un tizio aveva un problema e disse “So come risolverlo: userò una regular expression!”. E così il tizio ebbe 
due problemi... 
Non crediamo che sia così, però bisogna fare attenzione a usare le regular expression per quello che sono, 
senza esagerare. 
Come ultimo esempio vogliamo dare un'occhiata a una regular expression che forse non rispetta il consiglio 
di non esagerare. 
Si tratta di una regular expression che controlla la correttezza di un indirizzo email: 
“((([a-z]i[0-9] MAS RIEN NANNA Lui 
MEMI) +(\([a-z]i{[0-9]{!#1S1Z1&MN\"N+1\y/1 
=N?IMLI MMI) +) @((([a-z]i[0-9])({a-z] 
i[0-9]\-}{0,61}([a-z]i[0-9])\.))"([a-z]}[0-9])([a- 
z];[0-9]1\-){0,61}([a-z]i[0-9])\(afraxjalidziasiad 
laolailaglagjarlamjawlaulatlaz{bs{bh{bd!bb{by{belbz 
Ibjibmibtibolba!bw!bv!brlio!bn{bg{bfibilkhlcmicalev 
Ikylcfitdiclien'exiccicolkmicgiedicklcricilhriculcy 
lezidk!djidmidoleciegisvigglerleeletifk!folffilfr 
igfipfitfigaigmigeide ghigilgrigligdigpiguigtiggign 
lewigyiht'hmivaihn{hk{hujis}inlidlirjiglielimjillit 
imijpljeljolkz!Kelki!kp{krkw'kg!la{lv:1btstlr{ly 
tiltlulmo|jmkjmgimwmy]mv|mlimtimh}mqjmr}mujytmx 
Ifmimdimeimnimsima!mzimminajnrinpinlianincinzinilne 
inginuinfimp|no|jomjpkjpwipsipa{pgipyipeiphipn|plipt 
IprigalrelrofrulrwishIkn!Icipmivelwsismistisalsnics 
Isclslisgiskisilsbisolza/gslesilkIsdIsrisjiszise!ch 
isyitwitjitzithjtlltgitkitolttitnitr|tmjteltviugiua 
laelgb'uslum!uyluzivulvelvn!vglvilwf'ehlyelzmizwico 
mjedujgoviint|miljnetorgjbiz|info|namejpro|aero|co 
op,museumjarpa));(((([0-9]){1,3}\.{3}([0-9])}{1,3}) 
VI(\{((([0-9]}{1,3}\}{3([0-9]}{1,3})\})))$ 


NOTA Questo capolavoro di ingegnosità (ma anche di costanza) è dovuto ad un certo Philippe Benthien che l'ha 
inserito nel sito http://regexlib.com. 


Siamo sicuri che questa regular expression controlla alla perfezione la correttezza formale di un indirizzo 
email. 

Però se il signor Mario Rossi, il cui indirizzo è “mario.rossi@posta.it’ scrivesse per errore “mario.risso@posta.it”, 
la regular expression non gli direbbe che ha sbagliato. Viceversa il signor John Smith. il cui indirizzo email è 
“john.smith@people.mobi”, non potrebbe inserire il suo indirizzo se il controllo fosse affidato a questa regular 
expression. 


NOTA Per la cronaca .mobi è un dominio di primo livello introdotto nel 2006. 


inizio linea 

fino linea 

inizio testo 

fine testo 

bordo di una parola 
non bordo di una parola 


tutti i caratteri tranne “a capo” — 
(anche "a capo" se /s) 

gruppo 

gruppo passivo (no backref.) 

(gruppo con nome 

n-eesima backreference 

backreference con nome 

insieme di caratteri 

insieme da - a 

insieme tutti tranne 

altemativa 


carattere "alarm" (0x07) 
carattere control-X 

carattere escape (0x1B) 
carattere form feed (0x0C) | 
carattere ritomo carrello (0x0D) | 
carattere a capo Ox0A) 
‘carattere form feed (0x0C) 
carattere tab (0x09) 

‘carattere tab verticale (0x08) 
rende normale ciò che sec 





Appendice C 


Tabella riassuntiva 


cifra 

non cifra 
parola 

non parola 
separatore 
non separatore 


ASCII nn 
unicode nnnn 
unicode nnnnnnnn 


se avanti è uguale 
se avanti è diverso 
se indietro è uguale 
(se indietro è diverso 


maiuscole = minuscole 
linea singola (. anche a capo) 
linea multipla (* linea $) 
commento 
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Come usare le regex in Perl 
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Come usare le regex in JavaScript 
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Capitolo 21 - Regex in Java 
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Come usare le regex in Java 
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Appendice A - Le implementazioni 


Automa a stati finiti 

Automi e regex 

Determinismo o indeterminismo? 

Due diverse implementazioni 
Appendice B - Esempi utili 

CAP 

HTML 

Password 

Ma attenzione a non esagerare! 


Appendice C - Tabella riassuntiva 


